Something Big Is Happening
80 Mio.+ Views · Fortune-Sonderheft · Wikipedia-Eintrag innerhalb von 2 Wochen
TL;DR
AI-Agenten erledigen jetzt mehrstündige Expert:innen-Aufgaben autonom. Die Fähigkeitskurve verdoppelt sich alle 4–7 Monate. Shumer vergleicht den Moment mit der 'das klingt übertrieben'-Phase von Covid — nur mit größerer Tragweite.
Reasoning Seed
Ein Reasoning Seed ist ein strukturierter Prompt, den du in dein KI-Reasoning-Tool kopieren kannst (Claude, ChatGPT, Obsidian, Notion). Er enthält die These des Artikels, die zentrale Spannung und unsere Lab-Einordnung — bereit für deine eigene Analyse.
Klick den Button unten, um als Markdown zu kopieren. Weitere Interaktionsmöglichkeiten in den Diskussionsfragen weiter unten.
Spannung: Wenn die Verdopplungsrate hält — wer entscheidet, welche Expertentätigkeiten als nächstes fallen?
Einordnung: Betrifft direkt, wie Fractional-Teams Projekte strukturieren: Wenn AI-Agenten mehrstündige Expertentasks autonom lösen, verändert das Teamgrößen, Rollen und Taktung.
Wesentliche Insights
1 — Qualitätssprung Feb 2026: eine neue Ära
Ende 2025 hatten laut Shumer die besten Ingenieur:innen bereits den Großteil ihrer Coding-Arbeit an AI delegiert. Am 5. Feb 2026 kamen Modelle, die “alles davor wie eine andere Epoche aussehen lassen”. Wer AI in den letzten Monaten nicht ausprobiert hat, würde den heutigen Stand nicht wiedererkennen.
2 — METR-Daten: Verdopplungsrate beschleunigt sich
METR misst, wie lange real-world Tasks dauern, die ein Modell end-to-end ohne menschliche Hilfe löst. Vor einem Jahr: ~10 Minuten. Dann 1 Stunde, dann mehrere Stunden. Das jüngste Ergebnis (Claude Opus 4.5, Nov 2025): Aufgaben, die Expert:innen knapp 5 Stunden kosten. Verdopplungsrate: ~7 Monate, Tendenz Richtung 4 Monate.
3 — AI baut sich selbst: GPT-5.3 Codex
OpenAI schrieb in der technischen Dokumentation zu GPT-5.3 Codex (5. Feb 2026): “Our first model that was instrumental in creating itself.” Frühe Versionen haben eigenes Training debuggt und Deployment gemanagt. Für Shumer eine symbolisch entscheidende Schwelle — selbstverbessernde Systeme sind da.
4 — Urteilsvermögen statt nur Korrektheit
Die neuesten Modelle treffen Entscheidungen, die sich wie Judgment anfühlen — “ein intuitives Gespür für den richtigen Call, nicht nur den technisch korrekten”. Shumer beschreibt seine eigene Arbeit so: Er formuliert in Plain English, was er will, geht 4 Stunden weg und kommt zurück zu fertigem Output — kein Draft, sondern das Endprodukt.
5 — Die Covid-Analogie
“I think we’re in the ‘this seems overblown’ phase of something much, much bigger than Covid.” Er adressiert den Text explizit an “Non-Tech-Freunde und Familie” — das macht ihn zugänglich, aber auch angreifbar für den Vorwurf des Alarmismus.
6 — Handlungsempfehlung: Experimentieren, jetzt
Kernbotschaft an CNBC: “People in the workforce should start to use and experiment with AI tools so they can understand what’s coming.” Er impliziert, dass Zugang zu Premium-Modellen zum Differenzierungsfaktor wird — wer bezahlte Tools nutzt, wird schneller sein als wer nicht.
Einordnung
Dieser Text wird aus der Perspektive eines Product Designers und Generalisten kommentiert, der AI-Tools täglich produktiv einsetzt, aber weder AI-Systeme trainiert noch an Modellentwicklung beteiligt ist. Das erlaubt eine Einordnung der praktischen Implikationen — die technischen Claims zu METR-Benchmarks und Self-Improvement-Schwellen lassen sich aus dieser Position einschätzen, aber nicht unabhängig verifizieren. Ein Machine-Learning-Engineer oder ein AI-Safety-Researcher würde die technischen Belege anders gewichten; ein Arbeitsmarktforscher würde die Transformationsthese weniger am Modell und stärker an institutionellen Trägheiten messen.
Kritische Einordnung
Was hält stand
- Fähigkeitskurve ist real und datenbasiert (METR)
- Self-improvement-Schwelle bei GPT-5.3 ist dokumentiert, nicht spekulativ
- Aufforderung zum Experimentieren ist pragmatisch und verantwortbar
- Fortune, Microsoft, DEV Community bestätigen: “Die Konversation, die die Industrie brauchte”
Was man einordnen muss
- Interessenkonflikt: Shumer ist AI-CEO — Forbes nennt Teile des Textes “a sales pitch”
- Tonalität: Fortune kritisiert “doomsday packaging”, das innovative Energie abwürgt
- Track Record: Guardian erinnert an sein “world’s top open-source model”-Claim, der sich nicht bewahrheitete
- Agency-Frage: DEV Community betont — es gibt “still a human hand on the tiller”. Trajectory hängt von menschlichen Entscheidungen ab (Funding, Regulierung, Infrastruktur)
Diskussionsfragen
01 Eigene Erfahrung matchen: Deckt sich die beschriebene Qualitätskurve mit dem, was wir in unseren Projekten sehen? Wo liegen die Gaps zwischen Shumers Darstellung und unserer Realität?
02 Service-Modell-Implikation: Wenn 5-Stunden-Tasks autonom lösbar werden — was ändert sich am Pricing, Staffing und Scoping unserer Fractional-Engagements?
03 Judgment vs. Handwerk: Shumers “AI hat jetzt Urteilsvermögen”-These — gilt das für Design-Entscheidungen? Wo bleibt menschliches Judgment unersetzbar?
04 Client Enablement: Wie bereiten wir unsere Kunden auf diese Shifts vor, ohne in den von Fortune kritisierten Alarmismus zu verfallen?
Quellen
- Original: Matt Shumer — Something Big Is Happening
- Fortune — Something big is happening in AI
- Fortune — Counterpoint: the only thing he got right
- DEV Community — A Response
- Wikipedia — Something Big Is Happening
Glossar
METR Organisation, die die Fähigkeiten von KI-Modellen anhand realer Aufgaben misst. Die Metrik erfasst, wie lange eine Aufgabe dauert, die ein Modell autonom — ohne menschliche Hilfe — lösen kann.
Self-Improvement Die Fähigkeit eines KI-Systems, an seiner eigenen Verbesserung mitzuwirken — etwa durch Debugging des eigenen Trainings oder Management des eigenen Deployments. GPT-5.3 Codex gilt als erstes dokumentiertes Beispiel.
Verdopplungsrate Das Zeitintervall, in dem sich die messbaren Fähigkeiten von KI-Modellen verdoppeln. Laut METR-Daten aktuell bei etwa 7 Monaten, mit Tendenz Richtung 4 Monate.
Kuratiert von David Latz · Panoptia Februar 2026
Verwandte Field Notes
LLM Knowledge Bases: Warum alle beim selben Stack landen
3. Apr. 2026 · Andrej Karpathy
Claude Codes Source Code geleakt — Was die Architektur über die Zukunft von AI-Agents verrät
1. Apr. 2026 · Carl Franzen (VentureBeat)
Agent Memory: Why Your AI Has Amnesia and How to Fix It
27. März 2026 · Casius Lee (Oracle)