Grundsätzliche Vorteile von bildschaffender KI

Schneller, besser, flexibler?
Ja, ja und ja!

Zumindest in den allermeisten Fällen ;)

Um diese Frage richtig zu beurteilen müssen wir vielleicht erst einmal klären: was vergleichen wir?

Es macht ja einen Unterschied ob wir von der Fotografie eines Baumes sprechen oder von einem fiktionalen Motiv. Ein Drache der auf einem Einhorn reitet oder ein Diagramm das aussieht als bestünde es aus Seifenschaum, lassen sich immer noch, nur schwer zu einem Fotoshooting überreden.

Solche Motive würden früher gemalt oder mit Airbrush erstellt. Mit dem Siegeszug der immer schneller werdenden Computer, wurden diese Techniken durch 3D-Programme abgelöst.

Fiktion konnte von da an als Realität dargestellt werden. Autos die noch gar nicht produziert sind fahrend nun in den Sonnenuntergang. Drache und Einhorn sind nur noch eine Frage des Budgets. Das ist allerdings ziemlich hoch. Da der technische Aufwand sehr groß, oft unbezahlbar, ist.

Bisher ...

Angesichts der Tatsache, dass ich dieses Motiv innerhalb von zwei Stunden mit KI erstellt habe, um eine ansprechende Grafik für meinen eigenen Text zu erstellen, dürfte sich in der Budgetfrage zukünftig einiges tun ...

Zum Workflow-Beispiel >

Aber genau diese Dynamik gibt uns auch die Werkzeuge an die Hand, unseren Gestaltungshorizont zu erweitern. Wie, darauf kommen wir später.

Auf die klassische Fotografie als Kunstform wird die neue Entwicklung, meiner Meinung nach, keinen großen Einfluss haben. Wer hängt sich schon ein Bild von einem KI-Baum an die Wand? Das schöne an Fotografie ist doch das Wissen, dass es sich um einen eingefangen Moment aus der Wirklichkeit handelt. Oder wenn es die Golden-Gate-Brücke ist, dass man selbst schon dort war oder noch dort hin will. Ganz in echt. Nicht über eine App.

Auch ein 3D-Rendering von einem Baum müsste schon noch etwas besonderes aufweisen, dass es zu einem Kunstwerk wird, das sich jemand an die Wand hängt. Technisch ist das bereits seit Jahrzehnten möglich. Gemacht? Wird es wohl eher selten.

Können wir also die Fotografie aus unserem Vergleich heraus nehmen?

Ganz so einfach ist es leider doch nicht. Denn in der kommerziellen Fotografie gibt es die Produktfotografie, Shootings mit Menschen, Tieren, Essen und bestimmt noch ein dutzend anderer Unterdisziplinen. In einige dieser Bereiche kann KI tatsächlich mitmischen. Dazu sollte ich wohl einen eigenen Artikel erstellen.
Generell kann man sagen: überall da, wo ein gewisses Maß an Zufall toleriert werden kann, hat die KI den Vorteil, dass man kein aufwendiges Shooting braucht.

Eine Banane ist eine Banane ist eine Banane. Das gilt vor der Kamera genauso wie für die KI. Soll die Banane aber von der gesamten Belegschaft einer Firma getragen werden - ist ne große Banane, ich weiß - dann brauchts eben doch das Fotoshooting.

Soll die Banane jedoch durchs Weltall fliegen, kommen vermutlich nur 3D-Rendering oder KI in Frage. Oder andere händische Umsetzungen wie zum Beispiel Illustrationen. Da spielt dann wieder die Frage der Kunst eine Rolle. Denn eine Banane die durchs Weltall fliegt und aussieht wie eine Illustration kann auch mit KI gemacht werden. Aber will man das? Ist denn nicht da auch wieder das Schöne, dass ein Mensch die Illustration geschaffen hat? Vielleicht bin ich da zu altmodisch, aber wenn ich ne Illustration möchte, soll die auch eine IllustratorIn machen. Meine Meinung.

Zurück zum Thema!

Stellen wir die Frage ob KI schneller als die etablierten Tools ist, müssen wir fairerweise den ganzen Schöpfungsprozess betrachten, da KI schon von Anfang an sinnvoll in den Gestaltungsprozess integriert werden kann.

Der bisherige Workflow einer Visualisierung mit einem 3D-Programm beinhaltet viele Schritte, bei denen erst recht spät im Prozess, ein für den Kunden aussagekräftiges Ergebnis gezeigt werden kann.

Bildidee - was soll gezeigt werden?
Scribble - wie ist der Inhalt angeordnet?
Lookdefinition - welchen Stil soll das Bild haben?
Mockup - eine farbige Zeichnung soll eine Vorstellung vom Endprodukt geben
3D-Modelling - die 3D-Objekte des Motivs werden angelegt (dieser Teil kann sehr aufwendig werden, wenn wir zum Beispiel an eine Stadtszene denken)
Texturen erstellen, Licht und Kamera setzen - ohne Texturen hätten alle Objekt graue Oberflächen (auch das ist ein sehr aufwendiger Prozess)
3D-Vorschau-Rendering - das ist die erste Möglichkeit für den Kunden, das Ergebnis aller vorherigen Schritte wirklich zu beurteilen
Produktion und Feinschliff - hier sollte im Normalfall das Projekt zum Abschluss kommen. Bild fertig, Kunde glücklich - alles gut

Leider zeigt die Praxis - ich berufe mich hier auf circa 20 Jahre Kundenerfahrung -, dass manche Kunden, erst wenn das Auto zuhause in der Garage steht, feststellen, dass sie es doch lieber nicht in Grasgrün lackiert haben möchten. Zu spät? Im Falle eines Autos dürfte das jeder nachvollziehen können. Pech gehabt.

Aber bei einer Grafik? "Sie haben das doch am Computer gemacht! Das lässt sich doch schnell ändern!"

Diese Meinung ist durchaus weit verbreitet. Und das ist auch verständlich, schließlich ist eine der Kernaussagen von Computergrafik: Alles geht!

Nur halt zu welchem Aufwand? Das kann und muss ein Laie nicht einschätzen. Und egal wie toll der Projektleiter und das Briefing war - es kommt immer kurz vor Schluß der Punkt an dem jemand (nicht selten der Vorgesetzte) zum ersten Mal auf das Ergebnis schaut und mit einer eigenen Idee ums Eck kommt. Muss er ja auch. Ist ja schließlich Chef ...

Und dann stellt sich die Frage: was kann man da noch machen? Ist die Deadline in drei Tagen? Dann vermutlich nichts mehr. Außer es ist ein besonders wichtiger Kunde und die Artists schaffen es in Nachtschichten noch eine Kompromisslösung zu erzielen.

Ganz anders bei einem KI-Workflow. Was der Grund ist, warum ich die Problematik etwas breit ausgeführt habe. Sie führt uns zurück zu dem Punkt: wann kann der Kunde verstehen, wie das Endprodukt aussieht? Was ist dann noch in welchem Zeitraum machbar?

Kurz und knapp: innerhalb weniger Schritte liegt ein Ergebnis vor, dass - bis auf Feinheiten - bereits fast vollständig dem finalen Bild entspricht.

Bildidee - was soll gezeigt werden?
Varianten - welchen Stil soll das Bild haben? (hier wird der Inhalt bereits so präsentiert, dass Kunde (oder Chef) sehen können, wie das Endprodukt aussehen wird und eventuelle Änderungen zeitnah einfliessen lassen können)
Produktion und Feinschliff - hier kann das Projekt zum Abschluss kommen, da alle gestalterischen Fragen bereits im Vorfeld geklärt wurden. Um im Bild zu bleiben: der Kunde sieht schon in Schritt zwei, wie der Lack des Autos in seiner Garage aussieht .

Allein dadurch, dass man mit KI in kürzester Zeit Vorschläge erstellen kann, die bereits auf einem fast finalen Gestaltungsniveau sind, verkürzt man den Workflow immens. Während bei der klassischen Produktion von 3D-Visualisierungen der Kunde erst sehr spät im Prozess das erste Mal sieht, wie das finale Bild aussehen wird (nämlich ziemlich kurz vor der Freigabe) sind die ersten Vorschläge im KI Workflow bereits so nah am Endergebnis, dass der Kunde sehr früh das Gesamtergebnis beurteilen kann.

Das heißt: Kunde und Artist arbeiten von Anfang an gemeinsam am finalen Produkt, es gibt deutlich weniger Arbeitsschritte und - jetzt kommts: da der Aufwand "im Vergleich" so gering ist, können auch kurz vor Schluss noch Dinge geändert werden, die in das Gestaltungskonzept eingreifen!

Die Banane fliegt nicht mehr durchs Weltall sondern über einen Sandstrand? Die Banane ist eigentlich ne Orange? Und sie fliegt auch nicht, sondern wird als Billardkugel verwendet? Alles machbar! Zwar nicht umsonst, aber mit überschaubarem Aufwand. Machen Sie das mal im 3D-Workflow! Da fliegt Ihnen nicht nur das Budget um die Ohren ;)

Hat KI denn auch Schwächen?

Natürlich! Von den wohl bekannten Problemen mit zuviel oder zu wenig Fingern abgesehen: es wird mit Hochdruck daran gearbeitet, den Zufallsfaktor einzuschränken.

Was ist damit gemeint?

Zur Zeit ist es fast unmöglich dasselbe Bild im Abstand von mehreren Monaten zu erstellen. Eine hundert prozentig Reproduzierbarkeit - über solch längere Zeiträume - ist zur Zeit noch nicht möglich, da sich die Datenbasis ständig verändert, beständig wächst. Was man ja auch möchte, weil dies wiederum zu allgemein besseren Ergebnissen führt.

Ausserdem gibt es noch keine Anwendung - Stand 09.2024 - die es ermöglicht eine Person konsistent in unterschiedlichen, aber Szenarien zu zeigen.

Ein alter Mann mit einer blauen Hose und einem Strohhut in einer Scheune wird nicht derselbe sein, oder nicht denselben Hut aufhaben, wenn wir ihn in einen Supermarkt inszenieren. Hier gibt es noch zu viele Abweichungen, zu viel Spielraum für die KI.

Aber auch daran wird gearbeitet. Es ist ein wissenschaftliches Paper erschienen, dass sich genau mit diesem Problem befasst und es gelöst zu haben scheint.

Link zum Paper hier:
Konsistenz ohne Training von Modellen

Wohlgemerkt: wir sprechen nicht von der Darstellung realer Personen. Das sollten wir generell unterlassen!

Link zum Thema Persönlichkeitsrechte folgt.

Dessen muss man sich bewußt sein, wenn man sich jetzt für diesen Workflow entscheidet. KI ist momentan noch eine Technik für das hier und jetzt. Die Ergebnisse die wir in einem halben Jahr damit erzielen werden, sehen ziemlich sicher nicht genau gleich aus, wie die von heute vormittag.

Im Idealfall natürlich "noch" besser! ;)

Inwiefern erweitert KI den Gestaltungshorizont, wie oben angeteasert? Durch den Grad an Zufälligkeit in den Ergebnissen? Zum Teil ja. Der Artist wählt aus den unterschiedlichen Vorschlägen, diejenigen aus, die er für am vielversprechendsten hält und arbeitet mit diesen weiter. Ganz so, als ob ein Mitarbeiter in einer Stockfootage Library (einer Online Bildersammlung) nach entsprechenden Vorschlägen gesucht hätte und dem Artist eine Auswahl präsentiert. Jetzt bleibt es natürlich immer noch die Aufgabe des Artists, daraus ein eigenständiges "Kunstwerk" zu erstellen.

Was aber aus meiner Sicht tatsächlich den Horizont sprengt, ist schlicht die Geschwindigkeit mit der man Ideen ausprobieren und wieder verwerfen und wieder eine neue ausprobieren kann, ohne dabei gleich den Deckel des Budgets zu sprengen. Das führt dazu - muss dazu führen -, dass Bilder schlicht besser werden!

Wir starten mit bildschaffender KI bereits auf einem hohen Gestaltungsniveau - nun liegt es in unserer Verantwortung dafür zu sorgen, dass wir am Ende auch ein höheres Niveau abliefern!

Sicher, es wird Produktionen geben, bei denen es nur darum geht, möglichst viel in kurzer Zeit raus zu ballern. Aber bei den Projekten, wo es um Anspruch und Qualität geht, haben wir jetzt eine Reihe von Werkzeugen an der Hand, die es uns ermöglichen, die Latte ein ganzes Stück höher zu legen.

In diesem Sinne: "Prompt: make coolest stuff ever"

GENERATE!

Zurück