-
Large Language Models (LLMs) sind vielseitige Allrounder – im Unternehmensalltag aber oft zu teuer, komplex und schwer kontrollierbar.
-
Small Language Models (SLMs) fokussieren auf klar umrissene Aufgaben, laufen effizienter und lassen sich besser in bestehende IT- und OT‑Landschaften integrieren.
-
Leistungsfähige SLMs entstehen nicht „von selbst“, sondern durch Verfahren wie Knowledge Distillation, Pruning, Quantization und Factorization.
-
Entscheidend ist, dass Use Cases, Daten und Betriebsbedingungen sauber definiert werden, sonst bleibt das SLM entweder zu schwach oder unnötig komplex.

Vom großen Sprachmodell zum schlanken Spezialisten: Wie Small Language Models entstehen
Größer ist besser. Diese Annahme prägt, wie viele Unternehmen heute Künstliche Intelligenz einsetzen – und führt dabei oft in die falsche Richtung. Large Language Models wie GPT-5 von OpenAI oder Claude von Anthropic sind mächtig, keine Frage. Aber wer jeden Use Case mit einem LLM lösen möchte, zahlt auch für Fähigkeiten, die er nicht braucht. Small Language Models setzen genau hier an: Sie sind deutlich kompakter, fokussiert auf klar umrissene Aufgaben und lassen sich oft direkt in bestehende IT- und OT-Umgebungen integrieren. Doch wie entstehen sie eigentlich?
TL;DR
Was unterscheidet SLMs von LLMs?
LLMs, also Large Language Models, sind große Sprachmodelle mit über 70 Milliarden oder mehr Parametern. Sie wurden auf riesigen Datenmengen trainiert und können sehr unterschiedliche Aufgaben übernehmen: Texte generieren, Inhalte zusammenfassen, Daten interpretieren oder komplexe Dialoge führen. Im Gegensatz dazu sind Small Language Models (SLM) wie Llama 3.2 (Meta), Gemma 2 (Google) oder Phi-4 (Microsoft) kleiner, schlanker und stärker auf bestimmte Aufgaben, Domänen oder Anwendungskontexte ausgerichtet. Sie besitzen deutlich weniger Parameter als LLMs und sind damit wesentlich günstiger zu trainieren und zu betreiben.
Wie Small Language Models aus großen Modellen entstehen
Damit ein kleines Modell zuverlässig arbeitet, muss es gezielt auf Aufgabe, Daten und Betriebsbedingungen ausgerichtet werden. Denn SLM heißt nicht einfach „kleines Modell nehmen und hoffen, dass es reicht“. Viele leistungsfähige SLMs entstehen durch gezielte Optimierung. Sie werden spezialisiert, verschlankt und auf bestimmte Betriebsanforderungen zugeschnitten. Genau hier kommen Verfahren wie Distillation, Pruning, Quantization und Factorization ins Spiel.
1. Knowledge Distillation: vom Lehrmodell zum Task-Modell
Knowledge Distillation ist ein Verfahren aus dem maschinellen Lernen, bei dem das Wissen eines großen, komplexen Modells – dem sogenannten "Teacher" – auf ein kleineres, effizienteres Modell – den "Student" – übertragen wird. Das SLM übernimmt also Verhalten und Fähigkeiten eines größeren Lehrmodells, aber nur für einen klaren Aufgabenbereich. In Projekten ist das besonders wertvoll, wenn Output-Formate konsistent sein müssen, etwa JSON-Extraktion, Klassifikation mit festen Labels oder Zusammenfassungen nach Schablone. Distillation hilft außerdem, Verhalten zu standardisieren, zum Beispiel Formatdisziplin, Tonalität und Fehlermuster, was späteres Testing deutlich einfacher macht.
2. Pruning: Komplexität reduzieren, Effizienz steigern
Pruning reduziert Modellanteile, die für die Zielaufgabe wenig beitragen. Das kann die Inferenz beschleunigen und den Ressourcenbedarf senken. Stell dir vor: Ein LLM kann 100 verschiedene Aufgaben – du brauchst aber nur eine davon, z.B. "Rechnungen klassifizieren". Pruning erkennt, welche Neuronen und Verbindungen für genau diese Aufgabe wenig beitragen, und entfernt sie. In der Praxis zeigt sich der Nutzen vor allem bei höherem Durchsatz und besserer Parallelisierung. Wichtig ist eine saubere Evaluation, weil Pruning je nach Task die Robustheit verändern kann, etwa bei ungewöhnlichen Eingaben oder langen Dokumenten.
3. Quantization: Hardware-effizient (On-Prem/Edge)
Quantization reduziert die numerische Präzision der Modellgewichte, damit das Modell weniger Speicher braucht und schneller laufen kann. Vereinfacht heißt das, mehr Anfragen pro Instanz und oft weniger Hardwarekosten. Für Edge Deployments ist Quantization heute Standard und oft der entscheidende Hebel, weil RAM, VRAM und Energie in ressourcenbeschränkten Umgebungen begrenzt sind. Auch hier gilt, Qualität muss über Tests abgesichert werden, besonders bei Grenzfällen.
4. Factorization: Kompaktere Gewichte, effizientere Inferenz
Factorization zerlegt große Gewichtsmatrizen in kleinere Faktoren. Vereinfacht heißt das, ein großer Rechenschritt wird durch mehrere kleine ersetzt, mit ähnlichem Ergebnis. Das reduziert Speicherbedarf und kann die Inferenz beschleunigen, vor allem wenn VRAM oder Durchsatz limitieren. Wie bei den anderen Techniken entscheidet der Task, deshalb wird der Effekt über Golden Sets und Regressionstests abgesichert.

Du willst mit Künstlicher Intelligenz Prozesse stärker automatisieren? Dann sprich mit unserem Experten André Lindenberg.
Von der Theorie zur Praxis: In 5 Schritten vom LLM zum SLM
1. Use Case definieren
Zuerst wird festgelegt, welche konkrete Aufgabe das SLM übernehmen soll, etwa Rechnungen klassifizieren, Tickets routen oder Informationen aus Dokumenten extrahieren. Dazu gehören klare Eingaben, Ausgabeformate und Qualitätskriterien wie Accuracy, Latenz oder Kosten pro Anfrage.
2. Teacher-Modell nutzen
Ein großes Sprachmodell erzeugt hochwertige Beispielantworten für den Use Case. Gemeinsam mit Fachexpert:innen werden Prompts, Inhalte und Formate geschärft. So entsteht ein kuratierter Trainings- und Testdatensatz.
3. Student-Modell trainieren
Ein kleineres Basismodell lernt durch Knowledge Distillation, die Antworten des Teacher-Modells nachzubilden. Es übernimmt relevante Muster, Formatdisziplin und typische Verhaltensweisen für den definierten Aufgabenbereich.
4. Modell optimieren
Mit Pruning, Quantization und Factorization wird das Modell schlanker und effizienter. Nach jedem Schritt prüfen Golden Sets und Regressionstests, ob Qualität, Robustheit und Latenz weiterhin passen.
5. Produktiv setzen
Zum Schluss wird das SLM mit Domänendaten feinjustiert und in den Betrieb überführt. Monitoring, Logging und Feedback-Loops sorgen dafür, dass das Modell im Alltag zuverlässig bleibt. Dafür braucht es neben Technik auch die passende AI-Readiness im Unternehmen.
Einsatzbereiche von kleinen Sprachmodellen
Nachdem klar ist, wie aus großen Sprachmodellen schlanke Spezialisten entstehen, stellt sich die nächste Frage: Wo lohnt sich dieser Aufwand im Unternehmensalltag? Small Language Models spielen ihre Stärken vor allem dort aus, wo Aufgaben klar umrissen sind und sich gut in bestehende Prozesse einbetten lassen.
In vielen dieser Szenarien laufen SLMs nicht isoliert, sondern als Baustein in einer größeren Architektur: Ein LLM übernimmt etwa komplexere Recherchen oder generiert Trainingsdaten, während ein SLM im Tagesgeschäft für stabile, kosteneffiziente Entscheidungen sorgt.
Fazit: Kleine Modelle, große Wirkung
Ein gutes Small Language Model entsteht nicht am Reißbrett und auch nicht durch reine Kompression. Es entsteht aus einem klar beschriebenen Use Case: Welche Aufgabe soll das Modell übernehmen? Welche Daten darf es sehen? Welche Fehler sind akzeptabel? Welche Antwortzeit braucht der Prozess? Erst wenn diese Fragen beantwortet sind, lohnt sich der Blick auf Distillation, Quantization oder Pruning. Die Technik macht das Modell kleiner. Der Use Case macht es relevant. Und die Evaluation zeigt, ob es im Betrieb wirklich trägt. So wird aus einem großen Sprachmodell kein Alleskönner im Mini-Format, sondern ein Spezialist für genau den Handgriff, der im Unternehmen zählt.
Spotlight

André Lindenberg
Fellow KI
+49 172 9927164


