Ideen, Technologie · 09. Januar 2023 · Zielgruppe: KI-Interessierte

Bildgenerierung mit künstlicher Intelligenz

Matthias Hamann

Maximilian Rudolph

A futuristic Astronaut riding a horse - Generiert mit DALL-E

Inhalt

Die Erzeugung von Bildern mithilfe von künstlicher Intelligenz hat in jüngster Vergangenheit enorme Fortschritte gemacht. Analog dazu ist der Hype in den sozialen Medien groß und selbst in der klassischen Presse wird das Thema zunehmend aufgegriffen. In diesem Artikel wollen wir einen Überblick über das Thema geben sowie einige der gängigsten AI-Tools und deren Nutzungsszenarien samt Vorteilen und Risiken vorstellen.

Erkenntnisse aus diesem Artikel:

Vielfältige Anwendungsmöglichkeiten: KI-gestützte Bildgeneratoren können in Bereichen wie Marketing, Design und Unterhaltung eingesetzt werden, um maßgeschneiderte visuelle Inhalte effizient zu erstellen.
Signifikante Zeit- und Kostenersparnis: Durch die Automatisierung des Bildgenerierungsprozesses können Unternehmen den Aufwand und die Kosten für die Produktion hochwertiger Grafiken erheblich reduzieren.
Hohe Anpassbarkeit und Qualität: Moderne KI-Tools ermöglichen die präzise Anpassung von Bildstilen und -inhalten, wodurch qualitativ hochwertige und einzigartige visuelle Ergebnisse erzielt werden können.

Was sind neuronale Netzwerke

Neuronale Netze modellieren die Struktur des menschlichen Gehirns, um Denken nachzuahmen. Sie bestehen aus einzelnen „Neuronen“, die über bestimmte Pfade miteinander verbunden sind. Jedes Neuron bekommt einen Input und generiert daraus mithilfe von bestimmten Faktoren einen Output, der dem nächsten Neuron wiederum als Input dient. All das geschieht im Forschungsfeld der Computer Sciences natürlich in Form von Zahlen.

Lange waren Generative Adversarial Networks (GAN), eine spezielle Form künstlicher neuronaler Netze, die führende Technologie im Bereich Bildgenerierung. Eines der wohl bekanntesten GAN-Projekte ist sicher thispersondoesnotexist. Diese Website generiert täuschend echt aussehende, aber völlig fiktive Gesichter. Die Bildgeneratoren, die kürzlich die Medien eroberten, nutzen aber alle eine andere Technologie, und zwar sogenannte Diffusion Models.

Was ist ein Diffusion Model?

Diffusion Models sind ein recht junges nachrichtentechnisches Verfahren und machen aus Rauschen (Noise) Bilder, die wie echte Gemälde oder Fotos aussehen können.
Die Trainingsdaten für die KI bestehen aus einem in der Regel großen Datensatz von Bildern. Auf ein Bild aus diesem Datensatz wird vom Trainingssystem eine zufällige, aber reproduzierbare Menge Rauschen gelegt. Die künstliche Intelligenz muss dann lernen, wieder zurückzugehen, also das ursprüngliche Bild aus dem Rauschen herauszufiltern.

So lernt die KI, unterschiedlich intensives Rauschen aus dem Bild herauszufiltern. Das Ziel ist es, aus einem Input, der nur aus Rauschen besteht (t = T), ein Bild herauszufiltern – obwohl in diesem gar keine Bildinformationen mehr enthalten sind. Dadurch entsteht ein neues, allerdings völlig zufälliges Bild.

Tatsächlich lernt die KI nicht, ein Bild aus dem Rauschen herauszufiltern, sondern das Rauschen, das auf dem Bild liegt, zu reproduzieren. Das Ergebnis, reines Rauschen, lässt sich vom Bild mit Rauschen abziehen – übrig bleibt am Ende nur das Bild bzw. kein Rauschen mehr.

Bildgenerierung

Um ein neues Bild zu generieren, muss im Grunde nur der Trainingsprozess umgekehrt werden. Man startet also mit einem Bild als Input, das ausschließlich aus Rauschen besteht. Dann generiert die KI ein Rauschen, sodass, wenn dieses vom Input abgezogen wird, ein erkennbares Bild übrig bleibt.

Da es extrem schwer ist, in nur einem Schritt von “ausschließlichem Rauschen” zu “erkennbarem Bild” zu gelangen, erfolgt die Arbeit der KI in vielen kleinen Schritten. Aus reinem Rauschen entsteht nicht schlagartig, sondern Stück für Stück ein erkennbares Bild. Um diesen Prozess steuerbar und damit überhaupt nützlich zu machen, lässt man Texteingaben (prompts) durch einen Encoder laufen, der Schlüsselbegriffe herausfiltert. Diese Begriffe werden dann gemeinsam mit dem Rauschen an die KI gegeben, sodass sie während des gesamten Prozesses als weitere Parameter bzw. zum Abgleich zur Verfügung stehen. Diese Form der künstlichen Intelligenz lernt also nicht nur mit Bildern oder Text, sondern nutzt beides um die gewünschten Ergebnisse zu erzielen.

Upscaling

Models, wie z.B. Imagen von Google lassen den hochkomplexen Prozess von Text zu Bild bei sehr geringer Auflösung laufen. Über weitere Folgeschritte wird das Resultat dann mit sogenanntem Upscaling auf nutzbare Größen gebracht. Das sorgt für Effizienz, aber bei einigen weniger ausgereiften Implementierungen auch für weniger detailreiche Endresultate.

Drei prominente Beispiele

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.

Stable Diffusion

Stable Diffusion ist ein text-to-image Tool, das unter Mitarbeit von deutschen Doktoranden entwickelt wurde. Die Stärke von Stable Diffusion ist vor allem die hohe Auflösung der Ergebnisse. Das liegt an der zugrunde liegenden Technologie. Stable Diffusion nutzt, ähnlich wie auch Imagen von Google, einen Diffusion-Algorithmus, der die generierten Bilder sukzessive mit Details versieht.

DALL-E

DALL-E ist ein text-to-image Tool von OpenAI, das unserer Meinung nach in vielen Situationen die mit Abstand ansprechendsten Bilder generiert. Kluge Köpfe sind auch schon auf die Idee gekommen, ein großes, besonders detailliertes Bild in sich überlappenden Einzelteilen zu generieren - OpenAI selbst nennt das ‘Outpainting’. Mehr Infos dazu hier. Dafür ist die Software nicht Open-Source und auf Dauer auch nicht kostenlos.

Mittlerweile hat sich Microsoft in DALL-E 2 eingekauft, um eine eigene Grafiksoftware damit auszustatten. Mehr dazu hier.

Midjourney

Die meisten anderen Algorithmen haben ihren Fokus vor allem auf Realismus. Bei Midjourney ist das anders. Die Ergebnisse sind eher „Kunstwerke“ als Fotos, oft fantastisch und verwunschen, nie realistisch. Und das ist auch nicht der Anspruch - im Gegenteil. Genau deshalb ist Midjourney so bekannt und beliebt.

Die Bildgenerierung von Midjourney lässt sich kostenlos auf dem offiziellen Discord-Server ausprobieren.

Nutzungsszenarien

Da die hier vorgestellte Technologie noch recht jung ist, wird von einer eingefleischten Szene im Web aktuell sehr viel experimentiert. Allerdings gibt es schon jetzt einige interessante Nutzungsszenarien.

Viele Designer schätzen die einfach und zielgerichtete Bildgenerierung, um Mood- oder Dummybilder für ihre Layouts zu erstellen.

Durch den Einsatz der KI lässt sich die mühsame und zeitintensive Recherchearbeit einsparen bzw. die Ergebnisse können besser sein.

Gonna ship a Figma plugin to go from prompts + simple shapes to design ideas using #stablediffusion #aiart pic.twitter.com/0VYais9C6X
— Antonio Cao (@RemitNotPaucity) August 24, 2022

Ein weiterer Use case, ebenfalls im Bereich der Gestaltung angesiedelt, ist die automatische Generierung von Varianten. Einige Designer nutzen die Möglichkeit in sehr kurzer Zeit viele verschiedene Varianten eines Designs zu erzeugen. Das schafft neue Inspiration und hilft, die richtigen gestalterischen Entscheidungen zu treffen.

Die Mode- und Werbebranche hat das Thema KI-Bilderzeugung ebenfalls für sich entdeckt, wenn auch überwiegend in beobachtender Weise. Potenziell lassen sich hier aber enorme Kosten für menschliche Modelle bzw. ganz allgemein für Abbildungen jeder Art senken. Einige 3D-Rendering Programme bieten bereits frühe Integrationen von auf Diffusion Model basierter Bilderzeugung an.

Interessante Nutzungsmöglichkeiten sind auch im Bereich E-Learning zu erwarten.

So schreibt Rayan Nait Mazi in einem Blogartikel, dass E-Learning Apps von automatischer Image-Generation profitieren könnten. Einfach, weil Inhalte von visuellen Impulsen profitieren. Das gilt aber nicht nur für Babbel, Duolingo und co., sondern letztendlich für jede Art von digitalem Inhalt. (Rayan Nait Mazi, Positive use cases of text-to-image AI?, 25.05.2022)

Daran schließen allerdings direkt auch einige rechtliche Fragen an. Beispielsweise nach dem Urheberrecht – und das ist natürlich besonders interessant für alle, die AI-Bilder in selbst erstellte Inhalte wie z.B. Blogartikel oder Websites einbringen wollen.

Wem gehören die Bilder?

In den USA ist diese Frage relativ einfach zu beantworten. Das Gesetz sieht dort einen menschlichen Urheber als Voraussetzung für gültige Urheberrechte vor. AI-Bilder gehören also nichts und niemandem. In Deutschland sieht die rechtliche Lage etwas anders aus.

An dieser Stelle sind zwei Dinge zusätzlich nennenswert. Erstens: Die meisten Projekte, insbesondere die drei wesentlichsten (DALL-E, Stable Diffusion & Midjourney) sind mittlerweile kommerzialisiert. Es lässt sich argumentieren, es würden Bilder verkauft, allerdings kann das kommerzielle Angebot auch als verkaufte Dienstleistung verstanden werden.

Zweitens: Es gibt neben dem Entwickler der KI-Bild-Software und dem Endnutzer auch noch eine dritte wichtige Partei. Man darf nicht vergessen, dass künstliche Intelligenzen mit Hilfe tausender Kunstwerke verschiedenster Künstler trainiert wurden. Wie sieht es also mit deren Urheberrechten aus?

Die konkrete rechtliche Lage in Deutschland ist unklar. Der Blogger René Walter schreibt dazu sehr treffend „Die neuen Kreativbüchsen der Pandora operieren […] in einem gesetzlichen Graubereich […]. Der rechtliche Status einer Maschine, die Bilder von Batman produzieren kann, und auf jeder Menge Bilder von Bob Kane trainiert wurde, ist offensichtlich.”
(René Walter, Die rechtlichen Fallstricke von AI-Bildgeneratoren, 23.08.2022)

In diesem Bereich wird es in Deutschland wohl noch einiger richtungsweisender Urteile bedürfen. Und sicher wird es, wie so häufig in der Rechtsprechung, sehr stark auf den individuellen Kontext ankommen.

Stille Post mit Blogartikeln

Das Internet scheint sich einig zu sein: Es schwingt immer auch etwas Unbehagen mit, wenn man sich vorstellt, dass solche KIs innerhalb von Minuten oder sogar Sekunden täuschend echte Bilder generieren können.
Das ist im Übrigen einer der Gründe, warum die Software Midjourney ganz absichtlich eine gewisse stilistische Distanz von der Realität wahrt. (Rob Salkowitz, Midjourney Founder David Holz On The Impact Of AI On Art, Imagination And The Creative Economy, 16.09.2022)

Apropos “täuschend echt”: Zahlreiche gelungene Deep-Fakes machen sich diese Technologien zunutze und sorgen mitunter für großflächige Desinformation – eine Gefahr für Individuen, Firmen und Demokratien.

Die Verantwortung liegt beim Nutzer, den Anbietern, aber vor allem bei der Politik, Wege zu finden, damit adäquat umzugehen.

Wichtig ist es auch, ein Bewusstsein dafür zu entwickeln, was man gerade nutzt. Für die Plattformen, auf denen die Technologien laufen und wer sie mit welchem Interesse entwickelt hat. Stable Diffusion beispielsweise ist Open-Source und lässt sich als lokale Installation nutzen. Die meisten text-to-image Tools laufen allerdings in der Cloud. So auch DALL-E und Midjourney. Wo landen die erzeugten Bilddaten? Was passiert mit dem eingegebenen Text? Trage ich während der Nutzung zum Training der KI bei? Das ist alles zur Zeit noch sehr intransparent und für viele ein wichtiges Argument für Open-Source und in diesem Fall für Stable Diffusion.

Auch moralische Fragen schwingen mit. Völlig zu Recht steht das Thema vom „ersetzt werden“ im Raum. Durch AI-Bilder entstehen unheimlich spannende Fragestellungen. Zum Beispiel: „Was ist eigentlich Kunst und welche Bedeutung hat der Mensch in diesem Zusammenhang?“ . Im August dieses Jahres gewann ein gewisser Sincarnate den ersten Preis bei einem Kunstwettbewerb – mit einem Bild, das er mit der KI-Software Midjourney generiert hat.

Zum Ende des Artikels möchten wir zwischen einem mit DALL-E erstellten Bild (nach Vorlage des Liebermann-Kunstwerkes) und einem Werk des Impressionisten Max Liebermann vergleichen.

“An impressionist oil painting of a garden, a large birch avenue stretches into the background” - created with DALL-E

“Polospieler” - Max Liebermann / Quelle

Die Künstler des 19. Jahrhunderts bangten bereits bei der Erfindung der Kamera um ihre Existenzen. Was ist passiert? Grandiose Maler gibt es bis heute - Fotografen kamen dazu.

Was steht uns also bevor: Eine Evolution der Kunst oder eine Revolution der Kunstgeschichte? Diese Frage sollte jeder für sich beantworten.

Hey!
Wir sind AR-Enthusiasten und haben bereits zahlreiche
Projekte für namhafte Marken umgesetzt.
Mehr über uns, unsere Arbeit und einige coole Projekte
findest du unter Augmented Reality Services.