Einsatzmöglichkeiten von bildgenerierender KI
In diesem Leitfaden möchte ich konkrete Anwendungsbeispiele bildgenerierender KI vorstellen.
Ziel ist es, meine Erfahrungen zu teilen und zu veranschaulichen, was zum aktuellen Zeitpunkt möglich ist und wo KI jetzt schon reale Einsatzmöglichkeiten findet.
Ich gehe dabei bewusst technisch nicht so sehr in die Tiefe, um diesen Exkurs so anschaulich wie möglich zu gestalten. KI ist unter der Haube ein sehr komplexes Thema, deshalb beschränke ich mich hier hauptsächlich auf die Endergebnisse.
Ich experimentiere gerne und finde gerade deshalb künstliche Intelligenz unglaublich spannend.
Frei nach dem Motto:
"Its a solution in search of a problem."
Sollten Sie selbst ein Projekt haben und KI einsetzen möchten, kontaktieren Sie mich und ich berate Sie gern!
Was ist bildgenerierende KI?
Durch bildgenerierende künstliche Intelligenz können Bilder quasi aus dem "Nichts" erschaffen werden. Grundlage dafür sind KI-Modelle, die auf bis zu über 100 Millionen Bildern trainiert wurden. Dieser Datensatz bildet eine Art "Grundkonzept der Welt", da er versucht ein möglichst breites Spektrum an Bildmaterial abzudecken.
Wenn wir nun ein Bild generieren wollen, wird dieses Bild aus einer Art Rauschen (Noise) immer feiner aufgelöst. In welche "Richtung" sich das Rauschen auflöst, legt man durch Konditionen fest. Dies kann ein Textprompt sein, oder ein Bild, eine Maske etc. Im Grunde ist es einfach ein geführter "Bild-Entrauschungs-Prozess". So lässt sich der Prozess zumindest in einem bestimmten Rahmen kontrollieren. Dieser iterative Prozess läuft eine selbst gewählte Anzahl an Schritten durch und so wird schlussendlich aus einem Rauschen ein Bild.
In der folgenden Bildserie habe ich diese Schritte dokumentiert:
Stills
Stock Bilder
KI kann sehr individuelle und vielfältige Bilder, zielgenau für den bestimmten Anwendungszweck erstellen und damit teure Stockbilder ersetzen. Dafür genügt meist schon ein einfacher Textprompt.
Eine kurze Bildbeschreibung genügt um das gewünschte Bild generieren zu lassen. Sollte es nicht gefallen, kann man es einfach neu generieren. Durch einen zufälligen Startwert wird jedes mal ein neues Bild auf der Grundlage des Textprompts erstellt.
prompt: a lush scenic picture of a path in a jungle, rainforest
Je genauer das Bild beschrieben wird, desto näher kommt man ans Wunschbild. Im folgenden Prompt habe ich
"(tiger:1.3)" und "heavy rain" angefügt. Die Klammern und der darauffolgende Wert gibt dem Tiger mehr Gewichtung im Bild. Kurzum: Mehr Tiger!
a (tiger:1.3) in a lush scenic picture of a path in a jungle, rainforest, heavy rain
Hintergrundbilder
Durch Textprompts lassen sich natürlich auch Hintergrundbilder erstellen. Diese können in den unterschiedlichsten Projekten zum Einsatz kommen. Man denke dabei an Animationsfilme oder Erklärvideos. Dies spart Zeit beim durchsuchen von Bilddatenbanken nach einem Bild, dass dann am Ende doch nicht zu 100% das Bild ist, das man zu finden gehofft hat.
Außerdem kann man durch gezieltes prompten einen Bildstil beschreiben, der am besten passt.
prompt: a background image of a cinematic city skyline of a detailed futuristic city with on a sunny day
im Vektor-Stil
im Stil von Aquarell-Malerei
Look Developement / Ideenfindung
Die neueren Turbo Modelle erlauben es quasi in Echtzeit Bilder zu generieren. Schon beim eingeben des Text Prompts bekommt man Ergebnisse und kann diese beliebig abwandeln. Das ist großartig zur Ideenentwicklung, für die Entwicklung von Looks oder die Erstellung von Moodboards.
2D Assets erstellen
Es muss auch nicht immer ein komplettes Bild sein. Manchmal benötigt man auch nur ein einzelnes Objekt. Das kann bequem gepromptet werden und mittels Segmentierung freigestellt werden. Dabei handelt es sich um ein Segmentierungsmodell, dass auf Objekterkennung trainiert ist. Diese Technik ist bereits seit einiger Zeit auch in Photoshop enthalten.
Bild-Output
Bild-Output
freigestellt mit SAM
freigestellt mit SAM
Compositing
Die KI bietet die Möglichkeit, aus grob zusammengestellten Kompositionen realistische Bilder zu generieren. Das bedeutet, dass ich einzelne Bestandteile beispielsweise in Photoshop nach Belieben anordnen kann, und die KI fügt sie zu einem kohärenten Bild zusammen, wobei sie sogar die Lichtverhältnisse berücksichtigt und harmonisiert.
ganz grobes Compositing in Photoshop
extrahierte Maske
Bild-Output
Architektur
Architektur ist ein weiteres Feld, in dem KI große Chancen bietet. Hier lassen sich Synergien zwischen klassischem 3D und KI-Techniken bilden. Gerade in der Vorvisualisierung oder Ideenfindung kann man hier sehr schnell gute Ergebnisse erzielen. So lassen sich z.B. grobe 3D Renderings in fotorealistische Bilder umwandeln, bei denen sogar noch der Stil und die Details durch einen Textprompt oder andere Vorgaben bestimmt werden können.
Architekten können ihren Kunden so sehr viel schneller und vielfältiger Projektvorschläge visualisieren. Hier wären Workflows möglich, die Kundengespräche direkt visuell unterstützen und Projekte greifbarer machen.
Grobe 3D Visualisierung
KI Visualisierung
Sie sind Architekt oder arbeiten mit Architekten zusammen und möchten mehr über die Chancen von KI in der Architektur erfahren?
Melden Sie sich gern bei mir!
Inpainting
Inpainting ist eine Methode einzelne Bildbereiche neu zu generieren. Dafür malt man eine Maske ins Bild und die KI füllt die Lücke erneut nach den Vorgaben, die man ihr gibt. Das gibt einem die Möglichkeit alles im Bild zu ändern. Egal ob Hintergründe, einzelne Elemente, Frisuren oder Kleidung. Die Möglichkeiten hier sind nahe zu unbegrenzt.
Im folgenden Beispiel habe ich dem Haus noch ein paar dekorative Elemente hinzugefügt:
Outpainting
Hat ein Bild mal ein falsches Format oder oben und unten fehlt ein bisschen Platz für Text? Dieses Problem kann man durch erweitern des Bildes in alle Richtungen lösen.
Ausgangsbild
nach unten erweitert
Variationen
Sollten einmal Variationen eines Bildes oder Parameters benötigt werden, kann man das bequem auch dem Zufall überlassen. Hierfür können Listen aller Art angefertigt werden und die KI wählt dann den jeweiligen Parameter zufällig aus der Liste. Das kann alles sein, von Hintergründen über Haarfarben bis hin zu Bildstilen.
Oder man kombiniert alle Parameter miteinander.
So kann man ganze Tabellen an Kombinationen ausgeben lassen. Im folgenden Beispiel sehen Sie alle Möglichkeiten von "Katze", "Hund" und "Fuchs" mit den Farben "grün" und "blau"
Virtuelle Influencer / konstante Personen erstellen
Influencer sind aus der heutigen Zeit nicht mehr wegzudenken. Sie sind ideal zur Vermarktung von Produkten und geben ihnen ein Gesicht mit dem man vertraut ist.
Durch KI lassen sich jetzt immer konstant gleich aussehende Personen, basierend auf realen oder generierten Gesichtern erstellen.
Sie werde nie krank und können ihr Aussehen beliebig verändern und sogar zu abgelegenen Orten wie dem Mond oder anderen Fantasieszenarien reisen. Es fallen keine Kosten für Reisen oder Fotografen an und sie können rund um die Uhr arbeiten.
Perfekt um die Marke zu repräsentieren!
Nahtlose Texturen
Auch nahtlose (tilable / seamless) Texturen lassen sich durch Modifikationen erstellen. Perfekt zur Nutzung in 3D- Programmen.
Preprocessors
Ein Preprocessor ist eine Methode um aus einem Bild bestimmte Eigenschaften zu extrahieren und durch ein schwarzweiß Bild zu repräsentieren. Diese Maske kann man sich dann wiederum in den unterschiedlichsten Prozessen zu Nutze machen. Auch in 3D kann man diese Masken nutzen.
Outlines
Tiefenmap
Normalmap
Drawing2Image
Im folgenden Beispiel nutze ich eine einfache Zeichnung als Vorlage um der KI eine grobe Form zu geben. So lassen sich einfachste Zeichnungen in verwertbare Bilder verwandeln. Mögliche Einsatzzwecke sind hier Storyboards oder Previsualisierungen. Aber man könnte z.B. auch Kinderzeichnungen "professioneller" aussehen lassen.
Style Transfer
Ein Bildstil ist wesentlich für den Wiedererkennungswert eines Bildes. Mit KI kann man ein Ausgangsbild in jeden gewünschten Stil umwandeln.
Logo Transformation
Im folgenden Beispiel nutze ich eine schwarz-weiße Maske als Vorlage. Die KI halluziniert dann nach meinen Angaben ein Bild aus dem Logo.
Bildanalyse
Es ist möglich LLMs (large language models) mit einzubinden und Bilder analysieren und beschreiben zu lassen. Trotz kleiner Fehlinterpretationen funktioniert das erstaunlich gut. Diese Bildbeschreibungen lassen sich dann auf vielfältige Weise weiterverarbeiten. Man kann daraus z.B. wieder einen Prompt basteln um ähnliche Bilder zu erstellen.
Bild beschreiben (Describe the Image):
The image features a red fox sitting on a snowy hill near a body of water. The fox appears to be enjoying the winter scenery, surrounded by a snowy landscape. In the background, there is a house visible, adding to the picturesque setting. The fox seems to be the main focus of the scene, capturing the essence of the winter season in a beautiful and natural way.
Generiere Schlagworte aus der Bildbeschreibung (Generate Keywords from description):
red fox, snowy hill, body of water, winter scenery, snowy landscape, house, main focus, winter season
Neu generiertes Bild aus generierten Schlagworten:
QR Codes
Im folgenden Beispiel nutze ich einen QR Code als Vorlage. Alle diese QR Codes sind problemlos scanbar!
Probieren Sie es aus!
Upscaling
Durch Upscaling lassen sich Bilder vergrößern, ohne verpixelt zu wirken. Es können dabei sogar Details hinzugefügt werden. Das ist besonders nützlich um Ausgangsmaterial zu verbessern oder für den Druck aufzubereiten.
Upscaling ist ein elementarer Bestandteil der bildgenerierenden KI, da die Ursprungsmodelle auf einer niedrigen Auflösung von 512 x 512 bzw. 1024 x 1024 Pixeln trainiert wurden. Dementsprechend klein sind zunächst auch die erstellten Bilder. Deshalb folgt nach der Generierung meist ein Upscaling-Prozess. Hierbei lassen sich durch zusätzliche Prompts weitere Details und Bildinhalte einarbeiten.
Automation
Automation ist ein weiterer großer Vorteil.
Ein Social Media Team, kann beispielsweise komplett automatisiert Inhalte für verschiedene Plattformen anpassen.
Ein Beispiel:
1) Ein Bild wird generiert oder ein vorhandenes Bild oder ganzer Ordner voll Bildern ausgewählt.
2) Das Bildformat wird auf unterschiedliche Formate zugeschnitten.
3) Auf jedes dieser Formate werden ein oder mehrere Overlays platziert (z.B. "Angebot!", "Call-to-Action")
4) Automatisiert können passende Texte, Captions oder Stories erstellt werden.
5)Alles wird in einer frei anpassbaren Ordnerstruktur abgespeichert und benannt.
Das alles geschieht in nur einem Arbeitsschritt und voll automatisch!
Und das ist nur ein Beispiel von unzähligen Möglichkeiten, Arbeitsabläufe durch Automation effizienter zu gestalten.
Animation / Bewegtbild
txt2animation
Genau wie für ein Bild, kann ein Text Prompt auch dafür genutzt werden um eine Animation zu erstellen. Hier liegt die Herausforderung darin, die zeitliche Stabilität zu kontrollieren. Dabei gibt es ein momentan noch begrenzten Zeitkontext den die KI berücksichtigen kann.
Es ist außerdem möglich den Textprompt über die Zeit hinweg zu verändern und dadurch die Animation zu beeinflussen.
Es sind sogar Loops möglich!
Bildbereiche animieren
Maskierte Bereiche eines Bildes lassen sich auch animieren. Dies wäre dann so eine Art Mischung aus Animation und Inpainting. Die Bildbereiche lassen sich händisch, aber auch voll automatisch maskieren. Hierzu erkennt die KI z.B. den Wasserfall und animiert nur in diesem Bereich.
a tropical waterfall
freigestellter Wasserfall
automatisch generierte Maske
Animiertes Endergebnis
Bilder morphen
Generierte oder bereits verfügbare Bilder lassen sich ineinander morphen. Anders als bei einem herkömmlichen Übergang, bei dem Pixel aus- und eingeblendet werden, berechnet (interpoliert) die KI hier die fehlenden Zwischenbilder und verschiebt die Pixel so, dass ein möglichst nahtloser Übergang zu Stande kommt. Das funktioniert am besten bei Bildern, die eine gewisse Ähnlichkeit aufweisen.
Geführte Animation
In diesem Beispiel habe ich Animationen erstellt, die ich durch eine animierte Stop-Motion Maske gelenkt habe.
Video KI
Bei Video KI gebe ich als Input ein Bild oder einen Text Prompt ein und heraus kommt ein Video.
Die Video-KI unterscheidet sich von den bisher gezeigten Beispielen dadurch, dass sie auf ein Model zurückgreift, dass nicht auf Bildern, sondern auf Videos selbst trainiert wurde. Der Stand der Technik ist noch sehr experimentell und brauchbare Ergebnisse bekommt man meist nur bei einfacheren Aufgaben oder nach mehreren Versuchen. Trotzdem werden wir auch hier in der Zukunft wahrscheinlich immer bessere Modelle bekommen, mit denen mehr möglich ist.
Um kompliziertere Sachverhalte zu zeigen wird vermutlich noch einige Zeit die herkömmliche Animation die beste Wahl sein. Trotzdem ist dies eine sehr interessante Technologie und die Zukunft wird zeigen, wie weit man Video KI ausreizen kann.
Abschließendes
Die Vorteile der bildgenerierenden KI liegen auf der Hand:
Es können Zeit und Kosten gespart werden, in dem neue Wege etabliert werden. Ideen können auf eine neue Art und Weise entwickelt und neue Denkanstöße geschaffen werden. Durch KI werden die Grenzen zwischen Vorstellung und Visualisierung gesprengt und eine Art Spielwiese geschaffen, um Kreativität neu zu erleben. Die meisten hier gezeigten Techniken können sogar miteinander verbunden werden und es gibt zusätzlich noch die Gelegenheit selbst Datensätze zu trainieren.
Automationen lassen sich perfekt mit KI Workflows ergänzen und schaffen Platz und Zeit.
Die Technologie entwickelt sich in einem rasanten Tempo weiter und wird einen enormen Einfluss auf viele Branchen haben. Wer jetzt KI in seine Arbeitsabläufe integriert, kann sich einen klaren Vorteil verschaffen.
Ich hoffe Ihnen hat dieser Exkurs in die Welt der bildgenerierenden KI gefallen!
Wenn Sie noch Fragen haben oder sich unsicher sind, ob und wie Sie KI einsetzen wollen oder Sie haben eine Idee für die Umsetzung eines Projektes, bei dem Sie sich vorstellen können die Vorteile von KI zu nutzen,
melden Sie sich gern bei mir für ein unverbindliches Gespräch!
Vielen Dank!
Ihr Marc Hupperich