LLM, GPT, GAN, RAG… - es klingt fast wie im Song „Mfg - Mit freundlichen Grüßen“ der fantastischen Vier. Doch wir wollen nicht mit Abkürzungen um uns werfen, sondern Licht ins Dunkle bringen. Was verbirgt sich hinter den Abkürzungen und wofür stehen sie? Von unseren Techies und KI-Nerds für alle, die es werden wollen – oder die gerne besser verstehen möchten, worüber diese sprechen: In diesem Artikel beleuchten wir die sechs wichtigsten Modelle und Architekturen aus dem KI-Kosmos.
1. LLM – Large Language Models
Large Language Models sind Modelle, die natürliche Sprache verarbeiten. Sie werden anhand riesiger Textmengen entwickelt und trainiert und sind deshalb in der Lage, menschenähnlichen Text zu erzeugen, Kontext zu verstehen und Fragen zu beantworten. Sie können auf konkrete Szenarien spezialisiert werden, bpsw. auf Übersetzungen, Zusammenfassungen oder Stimmungsanalyse. Die bekannteste Anwendung basierend auf einem LLM ist wohl ChatGPT.
2. Transformer (z.B. BERT, T5)
Grundlage für Sprachmodelle bildet ein Transformer – eine Deep-Learning-Architektur. Diese steckt nicht nur hinter dem bekannten ChatGPT, sondern auch hinter anderen hochmodernen Sprachmodellen wie BERT, XLNet oder T5. Transformers nutzen Aufmerksamkeitsmechanismen, um kontextabhängige Beziehungen in Sequenzdaten wie Texten effizient zu lernen. Sie werden für Aufgaben wie Textklassifikation, Frage-Antwort-Systeme und maschinelle Übersetzung eingesetzt.
Ein Beispiel: "Die Katze überquerte die Straße nicht, denn sie war zu müde/breit." Hier erkennen die Attention-Mechanismen anhand des Adjektivs, worauf sich das "sie" im Satz bezieht.
3. GPT - Generative Pre-trained Transformer
Generative Pre-trained Transformers sind ein spezieller Typ der Large Language Models. Sie bilden einen wichtigen Baustein für generative künstliche Intelligenz. Wie LLMs auch basieren GPTs auf der Transformer-Architektur. ChatGPT trägt es im Namen und ist deswegen vielleicht die bekannteste Anwendung eines Generative Pre-trained Transformer. OpenAI hat sein berühmtes GPT anhand riesiger Mengen an Textdaten vortrainiert. Deswegen kann es Sätze und ganze Textabschnitte äußerst natürlich und kohärent generieren. Die aktuelle Version GPT-4 hat mehrere Billionen Parameter und ist damit das größte Modell weltweit. Texte generieren, Code erstellen, Aufgaben lösen – all das erledigt ein GPT mit teilweise beeindruckenden Ergebnissen.
4. Decoder-Encoder-Architektur
Diese klassische neuronale Architektur ist ein wichtiges Framework für Bereiche wie Natural Language Processing, Bilderkennung oder Sprachsynthese. Häufigstes Einsatzgebiet sind Sequenz-zu-Sequenz-Aufgaben. Das geht so: Ein Encoder codiert die Eingabesequenz zunächst in eine interne Repräsentation. Danach nutzt ein Decoder-Modell diese, um die Zielsequenz zu erzeugen. Diese Architektur liegt vielen Sprach- und Übersetzungsmodellen zugrunde.
5. GAN - Generative Adversarial Networks
Generative Adversarial Networks sind ein Konzept aus dem Maschinellen Lernen. Im Kontext von generativem Lernen bzw. unüberwachtem Lernen beschreiben sie ein Framework für das Training von Netzwerken. GANs bestehen aus zwei konkurrierenden neuronalen Netzwerken: einem Generator, der gefälschte Daten wie Bilder oder Audio erzeugt, und einem Diskriminator, der versucht, zwischen echten und gefälschten Daten zu unterscheiden. Durch diesen andauernden Wettkampf lernen GANs, immer realistischere und überzeugendere Ausgaben zu generieren. GANs sind Grundlage für bekannte Anwendungen zur Bildgenerierung wie bspw. DALL-E oder Midjourney oder Bildbearbeitung (Adobe Firefly). Aber auch Deep Fakes machen sich dieses Framework zu Nutze.
6. Diffusionsmodelle
Diffusionsmodelle nehmen im Rahmen der generativen künstlichen Intelligenz eine wichtige Rolle bei der Bilderzeugung ein. Ihre Superpower: Aus Textbeschreibungen Bilder generieren. Diffusionsmodelle ahmen dabei einen Diffusionsprozess nach. Dabei wird dem „Gaußschen Rauschen“ schrittweise Struktur und Kohärenz hinzugefügt wird. Dieser Prozess nennt sich umgekehrtes Lernen. Die Modelle generieren auf diese Weise fotorealistische Bilder aus reinem Rauschen. Anwendungen wie DALL-E 2 und Stable Diffusion basieren auf Diffusionsmodellen und zeigen wie aus Texteingaben Bilder entstehen.
In unserem Video siehst du, wie dieser Prozess abläuft.