Something Big Is Happening

9. Februar 2026 · David Latz

80 Mio.+ Views · Fortune-Sonderheft · Wikipedia-Eintrag innerhalb von 2 Wochen

TL;DR

AI-Agenten erledigen jetzt mehrstündige Expert:innen-Aufgaben autonom. Die Fähigkeitskurve verdoppelt sich alle 4–7 Monate. Shumer vergleicht den Moment mit der 'das klingt übertrieben'-Phase von Covid — nur mit größerer Tragweite.

Reasoning Seed

Spannung: Wenn die Verdopplungsrate hält — wer entscheidet, welche Expertentätigkeiten als nächstes fallen?

Einordnung: Betrifft direkt, wie Fractional-Teams Projekte strukturieren: Wenn AI-Agenten mehrstündige Expertentasks autonom lösen, verändert das Teamgrößen, Rollen und Taktung.

Wesentliche Insights

1 — Qualitätssprung Feb 2026: eine neue Ära

Ende 2025 hatten laut Shumer die besten Ingenieur:innen bereits den Großteil ihrer Coding-Arbeit an AI delegiert. Am 5. Feb 2026 kamen Modelle, die “alles davor wie eine andere Epoche aussehen lassen”. Wer AI in den letzten Monaten nicht ausprobiert hat, würde den heutigen Stand nicht wiedererkennen.

2 — METR-Daten: Verdopplungsrate beschleunigt sich

METR misst, wie lange real-world Tasks dauern, die ein Modell end-to-end ohne menschliche Hilfe löst. Vor einem Jahr: ~10 Minuten. Dann 1 Stunde, dann mehrere Stunden. Das jüngste Ergebnis (Claude Opus 4.5, Nov 2025): Aufgaben, die Expert:innen knapp 5 Stunden kosten. Verdopplungsrate: ~7 Monate, Tendenz Richtung 4 Monate.

3 — AI baut sich selbst: GPT-5.3 Codex

OpenAI schrieb in der technischen Dokumentation zu GPT-5.3 Codex (5. Feb 2026): “Our first model that was instrumental in creating itself.” Frühe Versionen haben eigenes Training debuggt und Deployment gemanagt. Für Shumer eine symbolisch entscheidende Schwelle — selbstverbessernde Systeme sind da.

4 — Urteilsvermögen statt nur Korrektheit

Die neuesten Modelle treffen Entscheidungen, die sich wie Judgment anfühlen — “ein intuitives Gespür für den richtigen Call, nicht nur den technisch korrekten”. Shumer beschreibt seine eigene Arbeit so: Er formuliert in Plain English, was er will, geht 4 Stunden weg und kommt zurück zu fertigem Output — kein Draft, sondern das Endprodukt.

5 — Die Covid-Analogie

“I think we’re in the ‘this seems overblown’ phase of something much, much bigger than Covid.” Er adressiert den Text explizit an “Non-Tech-Freunde und Familie” — das macht ihn zugänglich, aber auch angreifbar für den Vorwurf des Alarmismus.

6 — Handlungsempfehlung: Experimentieren, jetzt

Kernbotschaft an CNBC: “People in the workforce should start to use and experiment with AI tools so they can understand what’s coming.” Er impliziert, dass Zugang zu Premium-Modellen zum Differenzierungsfaktor wird — wer bezahlte Tools nutzt, wird schneller sein als wer nicht.

Einordnung

Dieser Text wird aus der Perspektive eines Product Designers und Generalisten kommentiert, der AI-Tools täglich produktiv einsetzt, aber weder AI-Systeme trainiert noch an Modellentwicklung beteiligt ist. Das erlaubt eine Einordnung der praktischen Implikationen — die technischen Claims zu METR-Benchmarks und Self-Improvement-Schwellen lassen sich aus dieser Position einschätzen, aber nicht unabhängig verifizieren. Ein Machine-Learning-Engineer oder ein AI-Safety-Researcher würde die technischen Belege anders gewichten; ein Arbeitsmarktforscher würde die Transformationsthese weniger am Modell und stärker an institutionellen Trägheiten messen.

Kritische Einordnung

Was hält stand

Fähigkeitskurve ist real und datenbasiert (METR)
Self-improvement-Schwelle bei GPT-5.3 ist dokumentiert, nicht spekulativ
Aufforderung zum Experimentieren ist pragmatisch und verantwortbar
Fortune, Microsoft, DEV Community bestätigen: “Die Konversation, die die Industrie brauchte”

Was man einordnen muss

Interessenkonflikt: Shumer ist AI-CEO — Forbes nennt Teile des Textes “a sales pitch”
Tonalität: Fortune kritisiert “doomsday packaging”, das innovative Energie abwürgt
Track Record: Guardian erinnert an sein “world’s top open-source model”-Claim, der sich nicht bewahrheitete
Agency-Frage: DEV Community betont — es gibt “still a human hand on the tiller”. Trajectory hängt von menschlichen Entscheidungen ab (Funding, Regulierung, Infrastruktur)

Diskussionsfragen

01 Eigene Erfahrung matchen: Deckt sich die beschriebene Qualitätskurve mit dem, was wir in unseren Projekten sehen? Wo liegen die Gaps zwischen Shumers Darstellung und unserer Realität?

02 Service-Modell-Implikation: Wenn 5-Stunden-Tasks autonom lösbar werden — was ändert sich am Pricing, Staffing und Scoping unserer Fractional-Engagements?

03 Judgment vs. Handwerk: Shumers “AI hat jetzt Urteilsvermögen”-These — gilt das für Design-Entscheidungen? Wo bleibt menschliches Judgment unersetzbar?

04 Client Enablement: Wie bereiten wir unsere Kunden auf diese Shifts vor, ohne in den von Fortune kritisierten Alarmismus zu verfallen?

Quellen

Glossar

METR Organisation, die die Fähigkeiten von KI-Modellen anhand realer Aufgaben misst. Die Metrik erfasst, wie lange eine Aufgabe dauert, die ein Modell autonom — ohne menschliche Hilfe — lösen kann.

Self-Improvement Die Fähigkeit eines KI-Systems, an seiner eigenen Verbesserung mitzuwirken — etwa durch Debugging des eigenen Trainings oder Management des eigenen Deployments. GPT-5.3 Codex gilt als erstes dokumentiertes Beispiel.

Verdopplungsrate Das Zeitintervall, in dem sich die messbaren Fähigkeiten von KI-Modellen verdoppeln. Laut METR-Daten aktuell bei etwa 7 Monaten, mit Tendenz Richtung 4 Monate.

Kuratiert von David Latz · Panoptia Februar 2026