-
KI-Modelle verbessern sich exponentiell – jede Leistungsverdopplung bringt neue, vorher unmögliche Aufgabenbereiche in Reichweite.
-
Die METR-Zeithorizonte zeigen, wie schnell KI reale menschliche Arbeitszeit ersetzt – insbesondere in der Softwareentwicklung.
-
Unsere Deep-Dive-Analyse erweitert die Perspektive: Auch bei echten Projektaufgaben wächst die Modellleistung – wenn auch mit ersten Grenzen.
-
Zwei Grenzen von bleiben auch 2026 entscheidend: fehlendes zielgerichtetes Handeln und fehlendes Dazulernen.

Ausblick 2026: Kommt jetzt die KI-Revolution?
2025 war das Jahr, in dem KI-Modelle erstmals massenhaft in reale Wertschöpfung rutschten – und gleichzeitig zeigten, wo aktuelle Modelle noch an Grenzen stoßen. Die Trendkurven zeigen: KI-Modelle verbessern sich weiter exponentiell, der ROI von KI-Automatisierung kippt gerade und Leistungsbereiche werden möglich, die vor zwei Jahren noch Science Fiction waren. Doch wie geht es 2026 mit Künstlicher Intelligenz weiter? Ein realistischer Ausblick auf ein Jahr, das zum Schwellenjahr der KI werden könnte.
TL;DR
Hype oder Realität? 2026 wird zeigen, wie weit KI tatsächlich ist. Die Einschätzungen zu KI könnten unterschiedlicher kaum sein. 2025 meldete der KI-Report des MIT: Unternehmen stecken 30 bis 40 Milliarden US-Dollar in KI-Projekte – doch 95 Prozent liefern kaum echten Mehrwert. Kein Wunder, dass viele das Ganze für einen Hype halten. Andererseits überschlagen sich die Fortschritte: Bei der internationalen Mathematikolympiade ging die Goldmedaille 2025 erstmals nicht nur an Menschen – sondern auch an Modelle von OpenAI und Google.
Die CEOs der führenden KI-Firmen und andere Tech-Insider treffen dramatische Vorhersagen: Sie erwarten starke KI – also echte Artificial General Intelligence (AGI) mit menschenähnlichem Verständnis – nicht irgendwann, sondern bald. Selbst frühere Skeptiker wie Meta Chief AI Scientist Yann LeCun und Keras-Entwickler François Chollet haben ihre Meinung geändert. Beide rechnen heute mit AGI in „ein paar Jahre, wenn nicht einem Jahrzehnt“ bzw. „fünf Jahren“.
Wie kommen solche gegensätzlichen Beobachtungen und Vorhersagen zustande – und was bedeutet das für 2026? Um das einzuordnen, lohnt sich ein Blick auf die Analysen, auf denen viele dieser Einschätzungen beruhen.
Was METR-Zeithorizonte wirklich aussagen
Der ehemalige OpenAI-Forscher Daniel Kokotajlo und sein Team haben ein detailliertes Szenario für die nächsten drei KI-Jahre entworfen. Ihr Fazit: Bis 2027 könnte ein KI-„Remote Worker“ Realität sein. Ein Modell, das Aufgaben komplett eigenständig abarbeitet. Wenige Monate später: ein KI-Modell, das allen Menschen kognitiv überlegen ist.
Eine Grundlage dieses AI-2027-Szenarios ist der METR-Bericht: eine detaillierte Analyse der Frage, wie komplex eine Aufgabe sein darf, damit KI sie zuverlässig löst.
METR hat dafür gemessen:
Wie lange menschliche Expert:innen für klar definierte Programmieraufgaben benötigen
Ab welchem Schwierigkeitsgrad KI-Modelle scheitern
Wie sich diese Schwellen über die Zeit verschieben
Auf dieser empirischen Basis entwickeln Kokotajlo und sein Team ihre mathematisch formulierten Szenarien. Darin versuchen sie sowohl die Geschwindigkeit der KI-Entwicklung als auch den Zeitpunkt zu quantifizieren, an dem Modelle beginnen könnten, eine aktive Rolle bei der Entwicklung neuer KI-Systeme zu übernehmen. Diese Szenarien sind also kein Bauchgefühl, sondern leiten sich direkt aus den beobachteten Trendlinien ab.
Wie komplex darf eine Aufgabe sein, damit ein KI-Modell sie noch zuverlässig löst? Das Ergebnis ist bemerkenswert: Die Schwelle verschiebt sich alle 4 bis 7 Monate nach oben – sie verdoppelt sich. Dieser Trend hält seit einigen Jahren und hat sich in letzter Zeit beschleunigt. Kein Wunder also, dass KI-Coding-Tools mit jedem Update leistungsfähiger werden.
Wenn der ROI kippt – warum bestimmte Aufgaben mit KI wirtschaftlicher werden
Bis Mitte 2024 konnten Modelle wie Claude Sonnet 3.5 von Anthropic einfache Programmieraufgaben teils gut lösen – aber nur mit 50 Prozent Erfolgswahrscheinlichkeit. Wenn eine Aufgabe 15 Minuten dauert und der Mensch die Eingabe und die Lösung sorgfältig prüfen muss, lohnt sich der Einsatz nur bei sehr einfachen Aufgaben. Der Return on Investment? Überschaubar.

Quelle: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Wird die Aufgabe jedoch komplexer – sagen wir 60 Minuten Aufwand oder länger – steigt die Zuverlässigkeit des KI-Modells spürbar und die Rechnung kippt. Kein Zufall: Genau deshalb boomen Coding-Agenten und „Vibe-Coding“ seit 2024. Weil sich der Einsatz von KI auf einmal lohnt.
Setzt sich dieser Trend fort, verschiebt sich der zuverlässige Leistungsbereich der Modelle 2026 in Aufgaben hinein, für die erfahrene Entwickler:innen heute mehrere Stunden benötigen. Aufgaben, die KI zwar vereinzelt schon lösen kann, aber bislang nicht stabil genug. Innerhalb der nächsten zwei Jahre können wir dann sogar Coding-Agenten sehen, die Aufgaben mit 80 Prozent Erfolgswahrscheinlichkeit erledigen, für die hochqualifizierte Programmierer:innen eine Woche sitzen würden.
Für den Arbeitsmarkt wären die Folgen gravierend: Allein in Deutschland arbeiten rund eine Million Menschen in der Softwareentwicklung. Doch die Veränderungen werden nicht auf Entwickler:innen beschränkt bleiben, denn viele andere klassische Büro- und Computerjobs folgen einem ähnlichen Trend.
Warum KI vielen wie ein Hype erscheint
Warum wirkt KI auf manche wie ein Hype – auf andere wie eine Revolution? Die Erklärung liegt im exponentiellen Wachstum. Exponentielles Wachstum sorgt immer für Überraschungen, da es Größenordnungen schnell überwindet und die meisten Phänomene uns erst auffallen, wenn sie eine für uns relevante Größenordnung erreicht haben. Ab diesem Zeitpunkt können sie sich innerhalb kurzer Zeit vervielfachen: x10, x100, x1000. Das sorgt für den Eindruck von plötzlicher Disruption, obwohl der Trend lange da war.
Ein Beispiel: die COVID-19-Pandemie. Anfang 2020 waren die Zahlen bereits mehrere Wochen lang exponentiell gestiegen – dennoch kam das Ausmaß für viele überraschend. Warum? Weil exponentielle Kurven anfangs harmlos wirken. Aber wenn sie erst einmal im relevanten Bereich sind, verdoppeln sich die Effekte. All das oft zu schnell, um noch gegensteuern zu können.
Bei KI erleben wir gerade eine ähnliche Dynamik. Der exponentielle Trend erklärt, warum viele Menschen KI lange Zeit für nutzlos hielten oder für Hype. Der Fortschritt macht plötzlich Aufgaben automatisierbar, die bisher fest in menschlicher Hand waren. Und das nicht nur im Einzelfall sondern in großer Allgemeinheit und vielleicht bald schon flächendeckend.
Es stellen sich also zwei Fragen: Wie lange wird dieser Trend noch anhalten? Und bedeutet er wirklich, was er zu bedeuten scheint?

Du willst mehr erfahren? Sprich mit unserem Experten Philipp Bongartz
Wie lange hält der KI-Fortschritt an?
Der Lindy-Effekt lässt erwarten, dass ein Trend im Schnitt noch so lange anhält, wie er bereits besteht. Übertragen auf die KI-Entwicklung bedeutet das: Wenn sich die Leistungsverdopplung alle 4 Monate über 1,5 Jahre gehalten hat, könnten weitere 1,5 Jahre drin sein. Bei einer Verdopplung alle 7 Monate sogar bis zu 6 Jahre.
Was heißt das konkret? Heute lösen führende KI-Modelle Aufgaben, für die Menschen rund 26 Minuten benötigen – mit etwa 80 Prozent Erfolgswahrscheinlichkeit. Wenn sich der schnelle exponentielle Trend fortsetzt, könnten Modelle Anfang 2027 bereits Aufgaben bewältigen, für die Menschen einen halben Arbeitstag brauchen. Verläuft das Wachstum etwas langsamer, dafür über Jahre stabil, könnten Modelle bis 2031 sogar Aufgaben zuverlässig lösen, für die Menschen mehrere Wochen benötigen würden. Spätestens dann hätte sich das Berufsbild „Softwareentwicklung“ radikal verändert.
Auch die massive Skalierung der Modelle, die jedes Jahr mehr Geld, GPUs und Elektrizität schluckt, und die den bisherigen Trend befeuert, wird wohl in nächster Zeit nicht abbrechen. Erst in drei, vier Jahren muss man davon ausgehen, dass die Kosten weiterer Skalierung so exorbitant werden, dass entweder die Verbesserung der Modelle sich verlangsamt oder bereits die gesamte Weltwirtschaft rearrangiert wird.
Tech Deep Dive
von Philipp Bongartz
Die METR-Zeithorizonte zeigen eindrucksvoll, wie schnell sich KI-Coding-Fähigkeiten entwickeln. Doch ein Kritikpunkt bleibt: Viele Aufgaben in METR sind stark vereinfacht – echte Entwicklungsarbeit ist komplexer. Was, wenn wir dieselben Trends mit realen Pull Requests testen?
SWE Bench Verified: Ein Benchmark mit echten Projektaufgaben
Die SWE Bench Verified prüft KI an Pull Requests aus echten Open-Source-Repositories. Das bedeutet: komplexer Code, reale Architektur, produktionsnahe Tests. Der Clou: Wir haben versucht, für diese Pull Requests eine geschätzte Bearbeitungszeit zu rekonstruieren – auf Basis von über 1.200 Commits und deren Zeitstempeln. Durch statistische Modellierung der Commit-Abstände (inkl. Pausenkorrektur) entstand eine realistische Verteilung der Arbeitszeiten.
Ergebnis: Zeithorizonte skalieren – aber mit Grenzen
Auch für SWE Bench zeigen sich steigende Zeithorizonte. Doch anders als bei METR flacht der Trend ab: Statt exponentiell weiterzuwachsen, nähert sich die Kurve einer Asymptote von wenigen Stunden.
Der Grund könnte sein, dass echte Softwareentwicklung Kontextverständnis durch kontinuierliches Dazulernen erfordert – Fähigkeiten, die heutigen Modellen noch schwerfallen.
Es könnte aber auch der Fall sein, dass SWE bench deutlich unter 100 Prozent saturiert, weil viele der Aufgabestellungen notwendige Details vermissen lassen, die den menschlichen Programmierern bewusst waren – ein Problem der Benchmark, nicht der Modelle.
von Philipp Bongartz
Was bedeutet der KI-Trend für 2026 – und welche Grenzen bleiben?
So eindeutig der exponentielle Trend erscheint, erzählt er nur einen Teil der Wahrheit. Es lässt sich immer noch nicht ausschließen, dass heutige KI-Modelle fundamentale Limitationen haben, die ihnen bestimmte kognitive Dimensionen unzugänglich machen.
Das Bild vom exponentiellen Fortschritt könnte also verzerrt sein: Die Benchmarks messen genau Bereiche, in denen KI schnell Fortschritte macht – andere wirtschaftlich relevantere Dimensionen bleiben aber auf der Strecke. Das würde bedeuten: Flaschenhals trotz Fortschritt.
Zwei große Baustellen bleiben auch 2026:
Zielgerichtetes Handeln – Intelligenz heißt nicht automatisch richtige Entscheidungen treffen.
Lernen im Job – heutige Modelle lernen nicht weiter, nachdem sie trainiert wurden. Sie bauen keinen neuen Kontext auf und entwickeln während der Aufgabe kein zusätzliches Wissen.
Flexibles Dazulernen erlaubt es Menschen impliziten Kontext für verschiedene Aufgaben aufzubauen. Ähnlich wie beim „gesunden Menschenverstand“ sind das schnell Informationen, die wir für selbstverständlich halten und deren Wichtigkeit wir deshalb unterschätzen. Sie sind uns in Fleisch und Blut übergegangen und werden automatisch überall mitberücksichtigt.
Da die Modelle dazu nicht ohne Weiteres in der Lage sind, müssen sie sich alle notwendigen Informationen aus dem gegebenen Kontext selbst erschließen. Deshalb ist es plausibel, dass sie wesentlich stärker sind und sich wesentlich schneller verbessern, wenn dieser gegebene Kontext gering ist. Die Limitationen werden 2026 entscheidend dafür sein, in welchen Bereichen KI tatsächlich breit einsetzbar wird – und wo menschliche Expertise vorerst unverzichtbar bleibt.
Crunchtime: 2026 wird zeigen, wie belastbar KI wirklich ist
Der bisherige Fortschritt bringt uns nah an eine Schwelle: KI-Modelle stehen kurz davor, wirtschaftlich breit einsetzbar zu werden – sei es als automatisierte:r Programmierer:in oder als digitale:r Office-Worker. Der Trend sagt, dass wir diese Schwellen in den nächsten Jahren überschreiten werden. Die Folgen? Weitreichend. Natürlich wird auch dieser Trend irgendwann abflachen. Mögliche Gründe dafür gibt es viele. Doch im Moment deutet wenig darauf hin, dass dieser Punkt bereits kommendes Jahr bevorsteht. Im Gegenteil: Die Modelle werden im Rhythmus weniger Monate spürbar leistungsfähiger, und jedes Update verschiebt die Reichweite realer Anwendungen weiter nach oben.
2026 wird damit zum Prüfjahr. Zum ersten Mal wird deutlich sichtbar, wie gut sich die Fortschritte von Künstlicher Intelligenz in echte Wertschöpfung übersetzen lassen – und wie Unternehmen, Märkte und Arbeitsprozesse darauf reagieren. Der Trend ist klar erkennbar. Aber wie weit er trägt, entscheidet sich jetzt.
Bleibe auf dem Laufenden: Folge uns auf LinkedIn und abonniere den Newsletter
Spotlight
Get in Touch

Philipp Bongartz
Senior Consultant • DataLab.DataScience
+49 174 9951281


