Eine Lupe vergrößert ein Chip-Symbol mit Leiterbahnen auf blauem Hintergrund als Symbol für die Analyse von KI-Modellen und Technologie.

Vom großen Sprachmodell zum schlanken Spezialisten: Wie Small Language Models entstehen

Größer ist besser. Diese Annahme prägt, wie viele Unternehmen heute Künstliche Intelligenz einsetzen – und führt dabei oft in die falsche Richtung. Large Language Models wie GPT-5 von OpenAI oder Claude von Anthropic sind mächtig, keine Frage. Aber wer jeden Use Case mit einem LLM lösen möchte, zahlt auch für Fähigkeiten, die er nicht braucht. Small Language Models setzen genau hier an: Sie sind deutlich kompakter, fokussiert auf klar umrissene Aufgaben und lassen sich oft direkt in bestehende IT- und OT-Umgebungen integrieren. Doch wie entstehen sie eigentlich?

TL;DR

Large Language Models (LLMs) sind vielseitige Allrounder – im Unternehmensalltag aber oft zu teuer, komplex und schwer kontrollierbar.
Small Language Models (SLMs) fokussieren auf klar umrissene Aufgaben, laufen effizienter und lassen sich besser in bestehende IT- und OT‑Landschaften integrieren.
Leistungsfähige SLMs entstehen nicht „von selbst“, sondern durch Verfahren wie Knowledge Distillation, Pruning, Quantization und Factorization.
Entscheidend ist, dass Use Cases, Daten und Betriebsbedingungen sauber definiert werden, sonst bleibt das SLM entweder zu schwach oder unnötig komplex.

Was unterscheidet SLMs von LLMs?

LLMs, also Large Language Models, sind große Sprachmodelle mit über 70 Milliarden oder mehr Parametern. Sie wurden auf riesigen Datenmengen trainiert und können sehr unterschiedliche Aufgaben übernehmen: Texte generieren, Inhalte zusammenfassen, Daten interpretieren oder komplexe Dialoge führen. Im Gegensatz dazu sind Small Language Models (SLM) wie Llama 3.2 (Meta), Gemma 2 (Google) oder Phi-4 (Microsoft) kleiner, schlanker und stärker auf bestimmte Aufgaben, Domänen oder Anwendungskontexte ausgerichtet. Sie besitzen deutlich weniger Parameter als LLMs und sind damit wesentlich günstiger zu trainieren und zu betreiben.

Wie Small Language Models aus großen Modellen entstehen

Damit ein kleines Modell zuverlässig arbeitet, muss es gezielt auf Aufgabe, Daten und Betriebsbedingungen ausgerichtet werden. Denn SLM heißt nicht einfach „kleines Modell nehmen und hoffen, dass es reicht“. Viele leistungsfähige SLMs entstehen durch gezielte Optimierung. Sie werden spezialisiert, verschlankt und auf bestimmte Betriebsanforderungen zugeschnitten. Genau hier kommen Verfahren wie Distillation, Pruning, Quantization und Factorization ins Spiel.

1. Knowledge Distillation: vom Lehrmodell zum Task-Modell

Knowledge Distillation ist ein Verfahren aus dem maschinellen Lernen, bei dem das Wissen eines großen, komplexen Modells – dem sogenannten "Teacher" – auf ein kleineres, effizienteres Modell – den "Student" – übertragen wird. Das SLM übernimmt also Verhalten und Fähigkeiten eines größeren Lehrmodells, aber nur für einen klaren Aufgabenbereich. In Projekten ist das besonders wertvoll, wenn Output-Formate konsistent sein müssen, etwa JSON-Extraktion, Klassifikation mit festen Labels oder Zusammenfassungen nach Schablone. Distillation hilft außerdem, Verhalten zu standardisieren, zum Beispiel Formatdisziplin, Tonalität und Fehlermuster, was späteres Testing deutlich einfacher macht.

2. Pruning: Komplexität reduzieren, Effizienz steigern

Pruning reduziert Modellanteile, die für die Zielaufgabe wenig beitragen. Das kann die Inferenz beschleunigen und den Ressourcenbedarf senken. Stell dir vor: Ein LLM kann 100 verschiedene Aufgaben – du brauchst aber nur eine davon, z.B. "Rechnungen klassifizieren". Pruning erkennt, welche Neuronen und Verbindungen für genau diese Aufgabe wenig beitragen, und entfernt sie. In der Praxis zeigt sich der Nutzen vor allem bei höherem Durchsatz und besserer Parallelisierung. Wichtig ist eine saubere Evaluation, weil Pruning je nach Task die Robustheit verändern kann, etwa bei ungewöhnlichen Eingaben oder langen Dokumenten.

3. Quantization: Hardware-effizient (On-Prem/Edge)

Quantization reduziert die numerische Präzision der Modellgewichte, damit das Modell weniger Speicher braucht und schneller laufen kann. Vereinfacht heißt das, mehr Anfragen pro Instanz und oft weniger Hardwarekosten. Für Edge Deployments ist Quantization heute Standard und oft der entscheidende Hebel, weil RAM, VRAM und Energie in ressourcenbeschränkten Umgebungen begrenzt sind. Auch hier gilt, Qualität muss über Tests abgesichert werden, besonders bei Grenzfällen.

4. Factorization: Kompaktere Gewichte, effizientere Inferenz

Factorization zerlegt große Gewichtsmatrizen in kleinere Faktoren. Vereinfacht heißt das, ein großer Rechenschritt wird durch mehrere kleine ersetzt, mit ähnlichem Ergebnis. Das reduziert Speicherbedarf und kann die Inferenz beschleunigen, vor allem wenn VRAM oder Durchsatz limitieren. Wie bei den anderen Techniken entscheidet der Task, deshalb wird der Effekt über Golden Sets und Regressionstests abgesichert.

Du willst mit Künstlicher Intelligenz Prozesse stärker automatisieren? Dann sprich mit unserem Experten André Lindenberg.

Jetzt kontaktieren Du willst mit Künstlicher Intelligenz Prozesse stärker automatisieren? Dann sprich mit unserem Experten André Lindenberg.

Von der Theorie zur Praxis: In 5 Schritten vom LLM zum SLM

1. Use Case definieren

Zuerst wird festgelegt, welche konkrete Aufgabe das SLM übernehmen soll, etwa Rechnungen klassifizieren, Tickets routen oder Informationen aus Dokumenten extrahieren. Dazu gehören klare Eingaben, Ausgabeformate und Qualitätskriterien wie Accuracy, Latenz oder Kosten pro Anfrage.

2. Teacher-Modell nutzen

Ein großes Sprachmodell erzeugt hochwertige Beispielantworten für den Use Case. Gemeinsam mit Fachexpert:innen werden Prompts, Inhalte und Formate geschärft. So entsteht ein kuratierter Trainings- und Testdatensatz.

3. Student-Modell trainieren

Ein kleineres Basismodell lernt durch Knowledge Distillation, die Antworten des Teacher-Modells nachzubilden. Es übernimmt relevante Muster, Formatdisziplin und typische Verhaltensweisen für den definierten Aufgabenbereich.

4. Modell optimieren

Mit Pruning, Quantization und Factorization wird das Modell schlanker und effizienter. Nach jedem Schritt prüfen Golden Sets und Regressionstests, ob Qualität, Robustheit und Latenz weiterhin passen.

5. Produktiv setzen

Zum Schluss wird das SLM mit Domänendaten feinjustiert und in den Betrieb überführt. Monitoring, Logging und Feedback-Loops sorgen dafür, dass das Modell im Alltag zuverlässig bleibt. Dafür braucht es neben Technik auch die passende AI-Readiness im Unternehmen.

Einsatzbereiche von kleinen Sprachmodellen

Nachdem klar ist, wie aus großen Sprachmodellen schlanke Spezialisten entstehen, stellt sich die nächste Frage: Wo lohnt sich dieser Aufwand im Unternehmensalltag? Small Language Models spielen ihre Stärken vor allem dort aus, wo Aufgaben klar umrissen sind und sich gut in bestehende Prozesse einbetten lassen.

Einsatzbereich	Use Case	Warum ein SLM passen kann
Kundenservice	Support-Tickets klassifizieren, Anliegen routen, Antwortvorschläge für Standardfälle erstellen	Wiederkehrende Muster, feste Kategorien, hoher Anfrageumfang
Dokumentenverarbeitung	Informationen aus Formularen, Rechnungen, Verträgen oder Berichten extrahieren	Klare Ausgabeformate, gut testbare Ergebnisse, hohe Automatisierbarkeit
Industrie und Fertigung	Maschinendaten, Prüfberichte oder Fehlermeldungen auswerten	Geringe Latenz, Edge-Nähe, stabile Prozesse
Finanzdienstleistungen	Transaktionen vorsortieren, Dokumente prüfen, interne Anfragen klassifizieren	Hohe Anforderungen an Datenhoheit, Nachvollziehbarkeit und Kostenkontrolle
Energie und Versorgung	Störungsmeldungen, Netzereignisse oder Wartungsinformationen einordnen	Echtzeitnahe Verarbeitung, viele wiederkehrende Signale, operative Relevanz
Recht und Compliance	Standardverträge prüfen, Klauseln erkennen, Dokumente vorstrukturieren	Vertrauliche Daten, klar definierte Prüfkriterien, Bedarf an kontrollierter Verarbeitung

In vielen dieser Szenarien laufen SLMs nicht isoliert, sondern als Baustein in einer größeren Architektur: Ein LLM übernimmt etwa komplexere Recherchen oder generiert Trainingsdaten, während ein SLM im Tagesgeschäft für stabile, kosteneffiziente Entscheidungen sorgt.

Fazit: Kleine Modelle, große Wirkung

Ein gutes Small Language Model entsteht nicht am Reißbrett und auch nicht durch reine Kompression. Es entsteht aus einem klar beschriebenen Use Case: Welche Aufgabe soll das Modell übernehmen? Welche Daten darf es sehen? Welche Fehler sind akzeptabel? Welche Antwortzeit braucht der Prozess? Erst wenn diese Fragen beantwortet sind, lohnt sich der Blick auf Distillation, Quantization oder Pruning. Die Technik macht das Modell kleiner. Der Use Case macht es relevant. Und die Evaluation zeigt, ob es im Betrieb wirklich trägt. So wird aus einem großen Sprachmodell kein Alleskönner im Mini-Format, sondern ein Spezialist für genau den Handgriff, der im Unternehmen zählt.

Spotlight

Small Language Models in Enterprise-Unternehmen: Wofür sie sich eignen

Wir zeigen, was SLMs sind, wie sie sich von LLMs unterscheiden und für welche Use Cases große Unternehmen sie einsetzen können.

Blogbeitrag lesen Small Language Models in Enterprise-Unternehmen: Wofür sie sich eignen
Prozessautomatisierung mit KI: vom Hype zur echten Wirkung

Warum viele KI-Projekte scheitern und wie Unternehmen durch gezielte Prozessautomatisierung echten Mehrwert schaffen können.

Blogbeitrag lesen Prozessautomatisierung mit KI: vom Hype zur echten Wirkung
AI-Readiness: Technologie und Verhalten zusammen denken

AI-Readiness: Ein Interview mit Tipps, wie Unternehmen KI auf ein starkes Fundament bauen und wie sie typische Bottlenecks bei der Einführung auflösen.

Blogbeitrag lesen AI-Readiness: Technologie und Verhalten zusammen denken