Zum Inhalt springen
KI generiertes Bild eines Rubiks Cubes

ChatGPT, DALL-E, Midjourney: So funktionieren generative Modelle hinter KI

Um generative Deep-Learning-Modelle kommt niemand mehr herum. Denn spätestens seit der Veröffentlichung von OpenAI's ChatGPT und Co. ist ein regelrechter KI-Wahn ausgebrochen und wir lassen Texte, Bilder, Videos und Code von generativen KI's erstellen.

Inhalt

  1. Der Tech Deep Dive Ein tiefer Einblick in die Unterschiede und Definitionen von generativen und diskriminativen Deep-Learning-Modellen.

  2. Bilderstellung mit künstlicher Intelligenz Wie KI genutzt wird, um automatisch Bilder zu generieren, und der Prozess dahinter.

  3. Textgenerierung mit künstlicher Intelligenz Ein Überblick darüber, wie KI Texte generiert und wie dieser Prozess funktioniert.

  4. Was kann künstliche Intelligenz in der Zukunft? Hypothesen und Überlegungen zur zukünftigen Entwicklung und den Möglichkeiten von KI.

  5. Limitierungen Die Grenzen und ethischen Überlegungen im Zusammenhang mit der Verwendung von generativer KI.

Der Hype begann mit dem Launch von GPT-3 durch OpenAI im Jahr 2020 auf dessen Grundlage auch DALL-E veröffentlicht wurde. Mit den vielversprechenden Ergebnissen bei der Erzeugung von Bildern in den unterschiedlichsten Stilen und allen Themen, überzeugte das Modell nicht nur die Deep-Learning Community.

Mittlerweile gibt es unzählige Projekte, die sich die neue Technologie zunutze machen: Stable Diffusion, DALL-E 2, Midjourney, eDiffi, ChatGPT und LaMDA sind nur einige Beispiele. Um diese zu nutzen, braucht man nur einen Browser (Computer oder Smartphone) – keine aufwendige Software. Das bringt künstliche Intelligenz aus den Unternehmen in die privaten Haushalte.

Die generativen Deep-Learning Modelle – nachfolgend nur noch umgangssprachlich „KI“ – sind eine spezielle Art von künstlicher Intelligenz, die es ermöglicht, unter anderem Bilder und Texte zu erstellen. Sie werden bereits in vielen Bereichen eingesetzt: von der Medienproduktion bis hin zur automatisierten Verarbeitung und Auswertung von Daten. In diesem Blogpost erklären wir euch die verschiedenen Anwendungsmöglichkeiten von generativer KI für Bilder und Texte.

Tech Deep Dive 

von Philipp Bongartz

Bei Persönlichkeitsmerkmalen von Menschen unterscheiden wir oft zwischen kreativen und analytischen oder deduktiven Typen. Ähnlich kann man auch bei Deep-Learning-Modellen vorgehen und von generativen und diskriminativen Modellen sprechen. Diese begriffliche Einordnung geht jedoch weiter als nur zu beschreiben, ob ein Modell eine Art Urteil fällt (z. B. „Dieses Bild zeigt ein Haus“) oder ein komplexeres Ergebnis intelligent erstellt.

Natürlich existiert auch eine mathematische Definition für diese beiden Klassen von Deep-Learning-Modellen. Laut ihr sagen diskriminative Modelle, auf Basis neuronaler Netze, die Wahrscheinlichkeit eines Ereignisses in einem bestimmten Fall voraus. Generative Modelle hingegen schätzen die Wahrscheinlichkeit des gleichzeitigen Auftretens des Ereignisses und des Umstands ab.

So kompliziert die Definition auch klingen mag, es ist wichtig zu verstehen: Diese Modelle liefern nicht notwendigerweise ein komplexeres Endergebnis als ein diskriminatives Modell. Ein einfaches Beispiel ist das binäre Klassifikationsmodell nach Naïve Bayes.

Generative Modelle haben eine schwierigere Aufgabe als diskriminative Modelle. Denn die modellierten – sogenannten gemeinsamen Wahrscheinlichkeiten – sind viel komplexer als die diskriminativ verwendeten bedingten Wahrscheinlichkeiten. Die verschachtelten Zusammenhänge sind für eine KI nur sehr schwer zu erlernen. Gut, dass Deep Learning zur Rettung eilt.

Beide Varianten verwenden unvorstellbar große neuronale Netze, die auf riesigen Mengen von Beispieldaten trainiert wurden. Dabei sind Daten aber auch Rechenleistung und somit teure Ressourcen. Ein Grund, warum die Technologie aktuell noch wenigen, gut finanzierten Unternehmen wie OpenAI, Google oder NVIDIA vorbehalten sind.

Die Befürchtung, dass gut trainierte generative Modelle aufgrund der Komplexität des Trainings den großen Technologieunternehmen vorbehalten sind, ist zurecht vorhanden. Bis heute gibt es nur wenige autonome Open-Source- und Open-Science-Projekte, wie BLOOM oder GLM. Andere sind jedoch lockerer lizenziert (z.B. Stable Diffusion) oder erlauben zumindest eine uneingeschränkte nicht-kommerzielle Nutzung wie bei StyleGAN2 oder OPT.

Hand aus CPU Strängen tippt auf Tastatur

So verändert GenAI die Softwareentwicklung

Ob GitHub Copilot, eigenes Modell oder ChatGPT: KI ist in der Softwareentwicklung gefragt wie nie. Was bringen die Künstlichen Intelligenzen? Und müssen wir überhaupt noch selbst coden?

Bilderstellung mit künstlicher Intelligenz

KI erstellt im Handumdrehen automatisch per Prompt einzigartige Bilder. All das beginnt mit einer großen Sammlung von Bilddaten, mit der die Deep-Learning-Technologie Informationen über Farben, Formen, Texturen und andere visuelle Elemente gefüttert wird und lernt. Anschließend werden diese Informationen verwendet, um neue Bilder oder Kunst zu erstellen – ziemlich intelligent. Sogar Videos lassen sich auf diese Art und Weise erstellen.

Ein ähnlicher Prozess wie bei der Malerei, bei der Künstler:innen versuchen, ein Bild durch die Verwendung von Farben und Formen zu erstellen. Mit generativer KI ist es möglich, in kürzester Zeit völlig neue digitale Werke zu erstellen, die durch die Verwendung von Algorithmen entstehen.

Wichtig bei der Erstellung von Bildern ist der sogenannte Prompt. Diese Texteingabe dient als Ausgangsbasis für den Output. Limitiert sind die Ergebnisse damit eigentlich nur durch die Vorstellungskraft des Menschen, der den Machine-Learning-Algorithmus bedient. 

Das Mischen verschiedener Stile, Verwendung bestimmter Farben oder ganzer Paletten, hinzufügen einzelner gewünschter Eigenschaften wie Beleuchtung oder die Imitation einer bestimmter Rendering-Engine wird damit zum Kinderspiel. Das Format des Bildes hat dabei teilweise starken Einfluss auf das Ergebnis. Ein Hochformat für Bilder von Menschen oder Figuren erzeugt bspw. eher Abbilder des gesamten Körpers oder des Oberkörpers wohingegen quadratische Bildformate meistens zu Ergebnissen führen, auf dem Kopf und Schultern zu sehen sind, wenn es im Prompt nicht explizit definiert ist.

Warum sollte man KIs für die Bilderstellung nutzen?

Das neue Werkzeug kann besonders dann nützlich sein, wenn es darum geht, eine große Anzahl von Bildern und Kunst möglichst schnell und automatisch zu erstellen. Außerdem lassen sich Bilder erstellen, die nicht in ein bestimmtes Genre oder einen bestimmten Stil passen. Generative AI kann auch als Inspirationsquelle für neue Ideen dienen, da sie weniger voreingenommen und über ein breiteres Bilderwissen als der Nutzende verfügt.

So sieht das in der Praxis aus

Zwei Bilder nebeneinander von futuristischem Auto auf Straße

links: Futuristic City - Human Artists - Copyright: Francisco Javier García Landa | rechts: KI - Prompt - cyberpunk rainy city at night with a car with red backlights

Schau dir an, wie so ein Bild in der KI entsteht

Im Video zu sehen: Es werden vier Bilder anhand des Prompts von Midjourney erstellt. Mit diesen Vorschlägen kann weitergearbeitet werden oder es können erneut vier Bilder generiert werden. In der aktuellen Version 5.1 von Midjourney, können Prompts im Laufe der weiteren Arbeit mit einem Ergebnis noch bearbeitet und verfeinert werden.

Textgenerierung mit künstlicher Intelligenz

Künstliche Intelligenz kann aber auch schreiben. Ein Beispiel: ChatGPT, welches in kürzester Zeit Absätze, Blogposts oder sogar ganze Bücher verfasst. Ähnlich wie bei der KI für die Bildgenerierung wird zunächst eine Sammlung von Textdaten verwendet, aus denen die KI lernt. Das sind: Strukturierung von Text und welche Wörter und Phrasen zusammen verwendet werden. Diese Informationen werden dann verwendet, um neue Texte zu generieren.

Dieser Prozess erfordert eine spezifische Programmierung, um bestimmte Themen und Stile beizubehalten und neue Ideen hervorzubringen. Das ist möglich, da die künstliche Intelligenz dank der umfassenden Sammlung von Textdaten in der Lage ist, Wörter und Phrasen zu erkennen, die zusammenpassen und einen Sinn ergeben, und sie dann in neue und bestenfalls originelle Texte umwandeln kann. Das System berechnet quasi, wie wahrscheinlich es ist, dass auf „Der Weihnachtsmann“ in einem Kontext „Weihnachten“ die Phrase „bringt Geschenke“ als nächstes folgt. 

Wann macht der Einsatz einer KI zur Textgenerierung Sinn? 

Für ein schnelles Brainstorming verschiedener Ideen, Erstellung einer Gliederung für einen Text, die Erstellung langer Blogartikel oder sogar zu Recherchezwecken eignet sich generative KI wirklich gut. Um die Überprüfung durch den Menschen kommt man aber trotzdem nicht drum herum. Gerade im Falle einer Recherche, müssen die Fakten immer noch einmal überprüft werden, da es eine hohe Fehlerquote in wissenschaftlichen bzw. Fachtexten gibt. Ein harmloser Anwendungsfall sind bspw. Märchen oder Fantasiegeschichten.

Textbeispiel

Prompt:

Du bist eine kreative Tech-Bloggerin und schreibst vor allem Blogbeiträge über aktuelle Trends im Bereich Künstliche Intelligenz. Deine Leser:innen erhoffen sich interessante Perspektiven auf neue Technologien und News aus dem Hightech-Bereich. Erstelle eine Tabelle mit 5 Themenvorschlägen für neue Beiträge und dazu in der zweiten Spalte eine kurze Zusammenfassung des Inhalts in 50 Wörtern.

Output:

1. KI in der Medizin: neue Entwicklungen und Anwendungen

Überblick über die Verwendung von KI im Gesundheitswesen, wie beispielsweise bei der Diagnostik und Therapie von Krankheiten oder im Bereich der Personalisierung von Behandlungsplänen.

2. KI und Datenschutz: Herausforderungen und Lösungsansätze

Diskussion über den Einsatz von KI und die damit einhergehenden Risiken für den Datenschutz sowie Möglichkeiten, diese Risiken zu minimieren.

3. KI und Arbeitsmarkt: Chancen und Bedrohungen

Analyse der Auswirkungen von KI auf den Arbeitsmarkt, wie beispielsweise die Automatisierung bestimmter Berufe und die Schaffung neuer Arbeitsplätze.

4. KI und Ethik: moralische Überlegungen und Verantwortung

Überblick über ethische Überlegungen und Diskussionen im Zusammenhang mit KI, wie beispielsweise die Verantwortung für Entscheidungen, die von KI-Systemen getroffen werden.

5. KI und Bilderkennung: Anwendungen und Limitationen

Überblick über die Anwendungen von KI in der Bilderkennung, wie beispielsweise in der Überwachung und Überprüfung von Bildern sowie über die Limitationen dieser Technologie.

Bildschirmfoto eines ChatGTP Prompt

ChatGTP

Textbeispiel mit Prompt und Ergebnis durch ChatGTP

Was kann künstliche Intelligenz in der Zukunft?

Die Zukunft der Machine Learning Technologie: mit Hilfe von maschinellem Lernen Aufgaben und Herausforderungen zu lösen, ohne dass menschliches Zutun nötig ist. Bis dahin ist es jedoch noch ein weiter Weg. Denn: Dafür müssen generative KIs in der Lage sein, unsere Intentionen und Präferenzen zu verstehen. 

Limitierungen

Selbst wenn enorm große Datenmengen gesammelt und analysiert werden, gibt es natürlich immer noch Grenzen. Ein wichtiger Punkt sind notwendige Diskussionen über ethische und moralische Aspekte oder der Verletzung von Persönlichkeits-, Foto- oder Copyrightrechten, die geführt werden müssen.

Auch die Gefahr, dass generative künstliche Intelligenz benutzt wird, um unethische oder illegale Aktivitäten zu fördern, ist real. Besonders dann, wenn sie nicht richtig auf ihre Einsatzzwecke angepasst wird. 

Deshalb ist es wichtig, die Systeme kontinuierlich zu überwachen. Hier liegt eine große Challenge: Bis wann wird moderiert und ab wann zensiert? Diese und noch viele weitere Fragen gilt es zu klären.

Fazit

Künstliche Intelligenz kann schon heute Inhalte jeglicher Art erstellen und uns damit erheblich unter die Arme greifen. Ideenfindung, Inspiration oder die Strukturierung von Texten meistert die Technologie problemlos. Ganz ohne Menschen geht es jedoch noch nicht. Jetzt gilt zu lernen, wie wir richtig mit ihr umgehen.

See the change