top of page

Einsatzmöglichkeiten von bildgenerierender KI

In diesem Leitfaden möchte ich konkrete Anwendungsbeispiele bildgenerierender KI vorstellen.

Ziel ist es, meine Erfahrungen zu teilen und zu veranschaulichen, was zum aktuellen Zeitpunkt möglich ist und wo KI jetzt schon reale Einsatzmöglichkeiten findet.

Ich gehe dabei bewusst technisch nicht so sehr in die Tiefe, um diesen Exkurs so anschaulich wie möglich zu gestalten. KI ist unter der Haube ein sehr komplexes Thema, deshalb beschränke ich mich hier hauptsächlich auf die Endergebnisse.

Ich experimentiere gerne und finde gerade deshalb künstliche Intelligenz unglaublich spannend.

Frei nach dem Motto:

"Its a solution in search of a problem."

Sollten Sie selbst ein Projekt haben und KI einsetzen möchten, kontaktieren Sie mich und ich berate Sie gern!

Was ist bildgenerierende KI?

Durch bildgenerierende künstliche Intelligenz können Bilder quasi aus dem "Nichts" erschaffen werden. Grundlage dafür sind KI-Modelle, die auf bis zu über 100 Millionen Bildern trainiert wurden. Dieser Datensatz bildet eine Art "Grundkonzept der Welt", da er versucht ein möglichst breites Spektrum an Bildmaterial abzudecken.

Wenn wir nun ein Bild generieren wollen, wird dieses Bild aus einer Art Rauschen (Noise) immer feiner aufgelöst. In welche "Richtung" sich das Rauschen auflöst, legt man durch Konditionen fest. Dies kann ein Textprompt sein, oder ein Bild, eine Maske etc. Im Grunde ist es einfach ein geführter "Bild-Entrauschungs-Prozess". So lässt sich der Prozess zumindest in einem bestimmten Rahmen kontrollieren. Dieser iterative Prozess läuft eine selbst gewählte Anzahl an Schritten durch und so wird schlussendlich aus einem Rauschen ein Bild.

In der folgenden Bildserie habe ich diese Schritte dokumentiert:

20240213_original__0031.jpg
20240213_original__0030.jpg
20240213_original__0029.jpg
20240213_original__0027.jpg
20240213_original__0026.jpg
20240213_original__0025.jpg

Stills

Stock Bilder

KI kann sehr individuelle und vielfältige Bilder, zielgenau für den bestimmten Anwendungszweck erstellen und damit teure Stockbilder ersetzen. Dafür genügt meist schon ein einfacher Textprompt.

Eine kurze Bildbeschreibung genügt um das gewünschte Bild generieren zu lassen. Sollte es nicht gefallen, kann man es einfach neu generieren. Durch einen zufälligen Startwert wird jedes mal ein neues Bild auf der Grundlage des Textprompts erstellt.

20240203_original__0001.png

prompt: a lush scenic picture of a path in a jungle, rainforest

Je genauer das Bild beschrieben wird, desto näher kommt man ans Wunschbild. Im folgenden Prompt habe ich 

"(tiger:1.3)" und "heavy rain" angefügt. Die Klammern und der darauffolgende Wert gibt dem Tiger mehr Gewichtung im Bild. Kurzum: Mehr Tiger!

20240203_original__0010.png

a (tiger:1.3) in a lush scenic picture of a path in a jungle, rainforest, heavy rain

Hintergrundbilder

Durch Textprompts lassen sich natürlich auch Hintergrundbilder erstellen. Diese können in den unterschiedlichsten Projekten zum Einsatz kommen. Man denke dabei an Animationsfilme oder Erklärvideos. Dies spart Zeit beim durchsuchen von Bilddatenbanken nach einem Bild, dass dann am Ende doch nicht zu 100% das Bild ist, das man zu finden gehofft hat.

Außerdem kann man durch gezieltes prompten einen Bildstil beschreiben, der am besten passt.

20240203_original__0005.png

prompt: a background image of a cinematic city skyline of a detailed futuristic city with on a sunny day

20240203_original__0006.png

im Vektor-Stil

20240203_original__0007.png

im Stil von Aquarell-Malerei

Look Developement / Ideenfindung

Die neueren Turbo Modelle erlauben es quasi in Echtzeit Bilder zu generieren. Schon beim eingeben des Text Prompts bekommt man Ergebnisse und kann diese beliebig abwandeln. Das ist großartig zur Ideenentwicklung, für die Entwicklung von Looks oder die Erstellung von Moodboards.

2D Assets erstellen

Es muss auch nicht immer ein komplettes Bild sein. Manchmal benötigt man auch nur ein einzelnes Objekt. Das kann bequem gepromptet werden und mittels Segmentierung freigestellt werden. Dabei handelt es sich um ein Segmentierungsmodell, dass auf Objekterkennung trainiert ist. Diese Technik ist bereits seit einiger Zeit auch in Photoshop enthalten.

20240203_original__0010.png

Bild-Output

20240203_original__0020.png

Bild-Output

ComfyUI_00003_.png

freigestellt mit SAM

ComfyUI_00004_.png

freigestellt mit SAM

Compositing

Die KI bietet die Möglichkeit, aus grob zusammengestellten Kompositionen realistische Bilder zu generieren. Das bedeutet, dass ich einzelne Bestandteile beispielsweise in Photoshop nach Belieben anordnen kann, und die KI fügt sie zu einem kohärenten Bild zusammen, wobei sie sogar die Lichtverhältnisse berücksichtigt und harmonisiert.

Unbenannt-3.jpg

ganz grobes Compositing in Photoshop

ComfyUI_temp_vdrkr_00002_.png

extrahierte Maske

20240209_original__0054.jpg

Bild-Output

Architektur

Architektur ist ein weiteres Feld, in dem KI große Chancen bietet. Hier lassen sich Synergien zwischen klassischem 3D und KI-Techniken bilden. Gerade in der Vorvisualisierung oder Ideenfindung kann man hier sehr schnell gute Ergebnisse erzielen. So lassen sich z.B. grobe 3D Renderings in fotorealistische Bilder umwandeln, bei denen sogar noch der Stil und die Details durch einen Textprompt oder andere Vorgaben bestimmt werden können.

Architekten können ihren Kunden so sehr viel schneller und vielfältiger Projektvorschläge visualisieren. Hier wären Workflows möglich, die Kundengespräche direkt visuell unterstützen und Projekte greifbarer machen.

Bildschirmfoto 2015-09-27 um 14.26.07.png

Grobe 3D Visualisierung

20240212_original__0038.jpg

KI Visualisierung

20240212_original__0115.jpg
20240212_original__0128.jpg

Sie sind Architekt oder arbeiten mit Architekten zusammen und möchten mehr über die Chancen von KI in der Architektur erfahren?

Melden Sie sich gern bei mir!

Inpainting

Inpainting ist eine Methode einzelne Bildbereiche neu zu generieren. Dafür malt man eine Maske ins Bild und die KI füllt die Lücke erneut nach den Vorgaben, die man ihr gibt. Das gibt einem die Möglichkeit alles im Bild zu ändern. Egal ob Hintergründe, einzelne Elemente, Frisuren oder Kleidung. Die Möglichkeiten hier sind nahe zu unbegrenzt.

Im folgenden Beispiel habe ich dem Haus noch ein paar dekorative Elemente hinzugefügt:

Outpainting

Hat ein Bild mal ein falsches Format oder oben und unten fehlt ein bisschen Platz für Text? Dieses Problem kann man durch erweitern des Bildes in alle Richtungen lösen.

20240212_original__0120.jpg

Ausgangsbild

20240212_original__0120_OUTPAINT.jpg

nach unten erweitert

Variationen

Sollten einmal Variationen eines Bildes oder Parameters benötigt werden, kann man das bequem auch dem Zufall überlassen. Hierfür können Listen aller Art angefertigt werden und die KI wählt dann den jeweiligen Parameter zufällig aus der Liste. Das kann alles sein, von Hintergründen über Haarfarben bis hin zu Bildstilen.

Oder man kombiniert alle Parameter miteinander.

So kann man ganze Tabellen an Kombinationen ausgeben lassen. Im folgenden Beispiel sehen Sie alle Möglichkeiten von "Katze", "Hund" und "Fuchs" mit den Farben "grün" und "blau"

CR_00001.jpg

Virtuelle Influencer / konstante Personen erstellen

Influencer sind aus der heutigen Zeit nicht mehr wegzudenken. Sie sind ideal zur Vermarktung von Produkten und geben ihnen ein Gesicht mit dem man vertraut ist.

Durch KI lassen sich jetzt immer konstant gleich aussehende Personen, basierend auf realen oder generierten Gesichtern erstellen.

Sie werde nie krank und können ihr Aussehen beliebig verändern und sogar zu abgelegenen Orten wie dem Mond oder anderen Fantasieszenarien reisen. Es fallen keine Kosten für Reisen oder Fotografen an und sie können rund um die Uhr arbeiten.

Perfekt um die Marke zu repräsentieren!

20240212_original__0033.jpg
20240212_original__0129.jpg
20240212_original__0069.jpg
20240212_original__0071.jpg
20240212_original__0227.jpg
20240212_original__0081.jpg
20240212_original__0151.jpg
20240212_original__0093.jpg

Nahtlose Texturen

Auch nahtlose (tilable / seamless) Texturen lassen sich durch Modifikationen erstellen. Perfekt zur Nutzung in 3D- Programmen.

20240203_original__0034.png
20240203_original__0034.png
20240203_original__0034.png
20240203_original__0034.png
20240203_original__0034.png
20240203_original__0034.png

Preprocessors

Ein Preprocessor ist eine Methode um aus einem Bild bestimmte Eigenschaften zu extrahieren und durch ein schwarzweiß Bild zu repräsentieren. Diese Maske kann man sich dann wiederum in den unterschiedlichsten Prozessen zu Nutze machen. Auch in 3D kann man diese Masken nutzen. 

Outlines

Tiefenmap

Normalmap

Drawing2Image

Im folgenden Beispiel nutze ich eine einfache Zeichnung als Vorlage um der KI eine grobe Form zu geben. So lassen sich einfachste Zeichnungen in verwertbare Bilder verwandeln. Mögliche Einsatzzwecke sind hier Storyboards oder Previsualisierungen. Aber man könnte z.B. auch Kinderzeichnungen "professioneller" aussehen lassen.

5ff7fba8adb0d8c645d5079afdcaee7aa4c1eb0b0430da2753aa16fb12be66db.jpg
20240204_original__0040.png
6dc27a2096429a7081d34a173d11ad68eb24cd4d63daade99bb5e9b2add995aa_EDITED.jpg
20240204_original__0049.png

Style Transfer

Ein Bildstil ist wesentlich für den Wiedererkennungswert eines Bildes. Mit KI kann man ein Ausgangsbild in jeden gewünschten Stil umwandeln.

_MG_6866_EDITED.jpg
20240208_original__0109.png
20240208_original__0111.png
20240208_original__0108.png

Logo Transformation

Im folgenden Beispiel nutze ich eine schwarz-weiße Maske als Vorlage. Die KI halluziniert dann nach meinen Angaben ein Bild aus dem Logo.

Bildanalyse

Es ist möglich LLMs (large language models) mit einzubinden und Bilder analysieren und beschreiben zu lassen. Trotz kleiner Fehlinterpretationen funktioniert das erstaunlich gut. Diese Bildbeschreibungen lassen sich dann auf vielfältige Weise weiterverarbeiten. Man kann daraus z.B. wieder einen Prompt basteln um ähnliche Bilder zu erstellen.

ComfyUI_temp_nktug_00005_.jpg

Bild beschreiben (Describe the Image):

The image features a red fox sitting on a snowy hill near a body of water. The fox appears to be enjoying the winter scenery, surrounded by a snowy landscape. In the background, there is a house visible, adding to the picturesque setting. The fox seems to be the main focus of the scene, capturing the essence of the winter season in a beautiful and natural way.

Generiere Schlagworte aus der Bildbeschreibung (Generate Keywords from description):

 red fox, snowy hill, body of water, winter scenery, snowy landscape, house, main focus, winter season

Neu generiertes Bild aus generierten Schlagworten:

ComfyUI_temp_nktug_00007_.jpg

QR Codes

Im folgenden Beispiel nutze ich einen QR Code als Vorlage. Alle diese QR Codes sind problemlos scanbar!

Probieren Sie es aus!

marc_hupperich_googlemail_com[H_x20]_EDITED.png

Upscaling

Durch Upscaling lassen sich Bilder vergrößern, ohne verpixelt zu wirken. Es können dabei sogar Details hinzugefügt werden. Das ist besonders nützlich um Ausgangsmaterial zu verbessern oder für den Druck aufzubereiten.

Upscaling ist ein elementarer Bestandteil der bildgenerierenden KI, da die Ursprungsmodelle auf einer niedrigen Auflösung von 512 x 512 bzw. 1024 x 1024 Pixeln trainiert wurden. Dementsprechend klein sind zunächst auch die erstellten Bilder. Deshalb folgt nach der Generierung meist ein Upscaling-Prozess. Hierbei lassen sich durch zusätzliche Prompts weitere Details und Bildinhalte einarbeiten.

20240213_original__0060.jpg
20240213_original__0061.jpg
20240213_original__0062.jpg
20240213_original__0063.jpg

Automation

Automation ist ein weiterer großer Vorteil.

Ein Social Media Team, kann beispielsweise komplett automatisiert Inhalte für verschiedene Plattformen anpassen.

Ein Beispiel:

1) Ein Bild wird generiert oder ein vorhandenes Bild oder ganzer Ordner voll Bildern ausgewählt.

2) Das Bildformat wird auf unterschiedliche Formate zugeschnitten.

3) Auf jedes dieser Formate werden ein oder mehrere Overlays platziert (z.B. "Angebot!",  "Call-to-Action")

4) Automatisiert können passende Texte, Captions oder Stories erstellt werden.

5)Alles wird in einer frei anpassbaren Ordnerstruktur abgespeichert und benannt.

Das alles geschieht in nur einem Arbeitsschritt und voll automatisch!

Und das ist nur ein Beispiel von unzähligen Möglichkeiten, Arbeitsabläufe durch Automation effizienter zu gestalten.

Animation / Bewegtbild

txt2animation

Genau wie für ein Bild, kann ein Text Prompt auch dafür genutzt werden um eine Animation zu erstellen. Hier liegt die Herausforderung darin, die zeitliche Stabilität zu kontrollieren. Dabei gibt es ein momentan noch begrenzten Zeitkontext den die KI berücksichtigen kann.

Es ist außerdem möglich den Textprompt über die Zeit hinweg zu verändern und dadurch die Animation zu beeinflussen.

Es sind sogar Loops möglich!

Bildbereiche animieren

Maskierte Bereiche eines Bildes lassen sich auch animieren. Dies wäre dann so eine Art Mischung aus Animation und Inpainting. Die Bildbereiche lassen sich händisch, aber auch voll automatisch maskieren. Hierzu erkennt die KI z.B. den Wasserfall und animiert nur in diesem Bereich.

ComfyUI_temp_sgqej_00022_.png

a tropical waterfall

ComfyUI_temp_vhbsu_00003_.png

freigestellter Wasserfall

ComfyUI_temp_rtpca_00002_.png

automatisch generierte Maske

Animiertes Endergebnis

Bilder morphen

Generierte oder bereits verfügbare Bilder lassen sich ineinander morphen. Anders als bei einem herkömmlichen Übergang, bei dem Pixel aus- und eingeblendet werden, berechnet (interpoliert) die KI hier die fehlenden Zwischenbilder und verschiebt die Pixel so, dass ein möglichst nahtloser Übergang zu Stande kommt. Das funktioniert am besten bei Bildern, die eine gewisse Ähnlichkeit aufweisen.

Geführte Animation

In diesem Beispiel habe ich Animationen erstellt, die ich durch eine animierte Stop-Motion Maske gelenkt habe.

Video KI

Bei Video KI gebe ich als Input ein Bild oder einen Text Prompt ein und heraus kommt ein Video.

Die Video-KI unterscheidet sich von den bisher gezeigten Beispielen dadurch, dass sie auf ein Model zurückgreift, dass nicht auf Bildern, sondern auf Videos selbst trainiert wurde. Der Stand der Technik ist noch sehr experimentell und brauchbare Ergebnisse bekommt man meist nur bei einfacheren Aufgaben oder nach mehreren Versuchen. Trotzdem werden wir auch hier in der Zukunft wahrscheinlich immer bessere Modelle bekommen, mit denen mehr möglich ist.

Um kompliziertere Sachverhalte zu zeigen wird vermutlich noch einige Zeit die herkömmliche Animation die beste Wahl sein. Trotzdem ist dies eine sehr interessante Technologie und die Zukunft wird zeigen, wie weit man Video KI ausreizen kann.

20240212_original__0066.png
20240212_original__0008.png
20240117_original__0009.png

Abschließendes

Die Vorteile der bildgenerierenden KI liegen auf der Hand:

Es können Zeit und Kosten gespart werden, in dem neue Wege etabliert werden. Ideen können auf eine neue Art und Weise entwickelt und neue Denkanstöße geschaffen werden. Durch KI werden die Grenzen zwischen Vorstellung und Visualisierung gesprengt und eine Art Spielwiese geschaffen, um Kreativität neu zu erleben. Die meisten hier gezeigten Techniken können sogar miteinander verbunden werden und es gibt zusätzlich noch die Gelegenheit selbst Datensätze zu trainieren.

 

 Automationen lassen sich perfekt mit KI Workflows ergänzen und schaffen Platz und Zeit.

Die Technologie entwickelt sich in einem rasanten Tempo weiter und wird einen enormen Einfluss auf viele Branchen haben. Wer jetzt KI in seine Arbeitsabläufe integriert, kann sich einen klaren Vorteil verschaffen.

Ich hoffe Ihnen hat dieser Exkurs in die Welt der bildgenerierenden KI gefallen!

Wenn Sie noch Fragen haben oder sich unsicher sind, ob und wie Sie KI einsetzen wollen oder Sie haben eine Idee für die Umsetzung eines Projektes, bei dem Sie sich vorstellen können die Vorteile von KI zu nutzen,

melden Sie sich gern bei mir für ein unverbindliches Gespräch!

Vielen Dank!

Ihr Marc Hupperich

bottom of page