Was kann bildschaffende KI leisten?

Die kurze Antwort ist: Alles was mit "klassischen" digitalen Techniken wie Fotografie, Illustration, Retusche oder 3D-Grafik bereits gemacht werden konnte. Nur eben in wesentlich kürzerer Zeit.

Und mit einem zusätzlichen kreativen Einfluss - den zugrunde liegenden Bilddaten mit denen die KI (genauer: das von der KI verwendete Model) trainiert wurde.

Im Umkehrschluss bedeutet das: wenn das Model den Begriff, den Sie gerne dargestellt hätten, nicht kennt, wird die KI versuchen ein Bild aus den Informationen zu generieren, die ihr in dem Moment zur Verfügung stehen.

Das Beispiel rechts verdeutlicht gut, wie eine generative KI mit unzureichendem Input umzugehen versucht: die Eingabe "ein schönes Bild" erzeugt ein schönes Bild, von einem schönen Bild, neben einem schönen Bild ... und Vasen und einen Tisch. So offen wie die Vorgabe, ist dann eben auch das Ergebnis.


Man sieht die KI förmlich mit den Schultern zucken und leise murmeln: "okay, wenn Du das willst ..."

Um die volle Leistung aus KI-Modellen heraus zu holen, müssen wir also wissen, welche Informationen wir in welcher Form angeben müssen.
Dazu zählt mittlerweile weit mehr als nur die reine Texteingabe. Es können Farben für den Stil, Strukturen für die Positionierung, sogar Tiefeninformationen zur nachträglichen Anpassung der Beleuchtungssituation vorgegeben werden.

Denn die aktuellen KI-Anwendungen erzeugen nicht nur Bildmaterial, sondern sie erkennen auch Bildinhalte.
So können mittlerweile selbst manche Smartphones Bildelemente erkennen und auf Knopfdruck löschen.

Wobei: diese Beschreibung ist nicht korrekt. Würden Bildinhalte nur "gelöscht", hätte das Bild an dieser Stelle ein Loch. Oder eine generische Hintergrundfarbe. Vielmehr muss die KI das Bild analysieren und den Part glaubhaft ersetzen. Das funktioniert erstaunlich gut. Auch ganz ohne Texteingabe.


Was damit zusammenhängt, dass die meisten von einem mobilen Gerät gemachten Fotos viele Gemeinsamkeiten aufweisen. Erst recht jene, die anschließend von Hand manipuliert werden. (Im Freien, im Urlaub, auf einer Party ...etc.)

Wir halten also fest:

  • KI kann Bilder erstellen (wenn sie weiß von was wir sprechen, sehen diese dann auch in etwa so aus, wie es gewünscht war)
  • KI kann Bildinhalte erkennen und als Eingabe behandeln (je nach Aufgabenstellung per Knopfdruck oder innerhalb spezialisierter Apps)
  • und KI kann unendliche Kombinationen aus beidem erstellen (der "genau so, nur ganz anders"-Effekt)

Was KI nicht kann: in unser Gehirn schauen und erahnen, was wir gerne hätten.

Die Verantwortung liegt also bei uns!

Ähnlich wie bei einem kleinen Kind, ist es unsere Aufgabe einen Weg zu finden, dass wir verstanden werden. Und, ähnlich wie bei einem kleinen Kind, wird uns das Ergebnis oftmals überraschen und so gut wie nie ganz genau das sein, was wir uns vorgestellt hatten. Wir können das entweder so annehmen - vielleicht wären wir von selbst gar nicht auf eine solche Lösung gekommen - oder wir setzen darauf auf und gehen an die Detailarbeit.
"Schau mal liebe KI, hier an dieser Stelle sollte die Hand fünf Finger haben. Kannst Du die drei wegmachen, die zu viel sind?"

Und noch etwas wird KI nie können:
Artists ersetzen.

Denn wir sind es, die Bildidee haben; die entscheiden welche Vorschläge weiter entwickelt werden können; die mit der KI so reden können; dass sie verstanden werden; die das gestalterische Heft in der Hand haben.

Wir Artists haben es halt jetzt ein wenig leichter, weil wir uns nur noch um die Details kümmern müssen, die für uns - und das Motiv - wichtig sind.

Zurück