Product Management on the AI Exponential

21. März 2026 · David Latz

Anthropic-Blog · Head of Product Claude Code

TL;DR

Anthropics Head of Product für Claude Code beschreibt, wie exponentiell besser werdende Modelle das klassische PM-Playbook auflösen — und welche vier Shifts Teams brauchen, um auf der Kurve zu bleiben statt hinter ihr.

Reasoning Seed

Spannung: Wenn sich die technische Machbarkeit schneller verändert als der Planungszyklus — ist Product Management dann noch Planung oder nur noch Reaktion?

Einordnung: Cat Wu beschreibt bei Anthropic, was sich in der täglichen Produktarbeit zeigt: Product Management auf einer Exponentialkurve erfordert andere Planungshorizonte und mehr Prototyping-Zyklen.

Wesentliche Insights

1 — Das PM-Playbook basiert auf einer Annahme, die nicht mehr gilt

Das klassische Produktmanagement geht davon aus, dass die technische Machbarkeit zwischen Projektstart und -ende stabil bleibt. Bei exponentiell besser werdenden Modellen bricht diese Annahme: Features, die bei Sprintbeginn unmöglich waren, werden mittendrin machbar. Wu illustriert das mit ihrer eigenen Erfahrung — Claude Code scheiterte mit Sonnet 3.5 an einfachen Aufgaben, funktionierte gelegentlich mit Opus 4 und lieferte mit Opus 4.6 zuverlässige Live-Demos.

2 — Vier operative Shifts für Teams auf der Exponentialkurve

Wu destilliert vier Anpassungen: Kurze Sprints statt Langzeit-Roadmaps — das Team nutzt „Side Quests” (selbstgesteuerte Experimente außerhalb der offiziellen Roadmap), aus denen Features wie Claude Code on Desktop entstanden. Demos statt Dokumentation — ein grober Prototyp verändert die Diskussion mehr als ein ausformuliertes Spec. Features mit jedem neuen Modell re-evaluieren — die Chrome-Integration entstand, weil das Team beobachtete, wie Nutzer manuell zwischen Claude Code und Browser wechselten. Einfachheit als Default — komplexe Workarounds werden obsolet, wenn das nächste Modell die Aufgabe nativ löst. Das Team reduzierte System-Prompting um 20 % mit Opus 4.6.

3 — Drei-Tool-Workflow als Arbeitsteilung

Wu beschreibt eine klare Aufteilung: Claude.ai für strategisches Denken und Ideation, Claude Code für Prototypen, Evaluierungen und Scripts, Cowork für Wissensarbeit, Planung und Administration. Peers bei Decagon und Datadog bestätigen ähnliche hybride Workflows, die Entwicklungszyklen dramatisch verkürzen.

4 — 41-fache Verbesserung in 16 Monaten

Wu zitiert METR-Forschung: Opus 4.6 kann Softwareaufgaben lösen, die einen Menschen etwa 12 Stunden kosten — gegenüber 21 Minuten bei Sonnet 3.5. Das ist eine rund 41-fache Steigerung in 16 Monaten. Dieser Fortschritt ist kein linearer Trend, sondern eine Exponentialkurve, die Planungshorizonte fundamental komprimiert.

5 — Von Engineering-Tool zu organisationsweiter Beschleunigung

Der Effekt bleibt nicht bei Product und Engineering stehen. Data Science, Finance, Legal, Marketing und Design übernehmen AI-native Workflows. Der Shift ist: Statt sequenzieller Übergaben zwischen Abteilungen entstehen parallele, AI-gestützte Arbeitsprozesse über die gesamte Organisation.

Einordnung

Geschrieben aus der Sicht eines Product Designers mit Erfahrung in agiler Produktentwicklung und Innovationsberatung — vertraut mit den Spannungen zwischen Roadmap-Planung und explorativer Arbeit, aber ohne direkte Erfahrung in einem AI-Lab mit vergleichbarer Ressourcenausstattung. Die Kuratierung betont operative Übertragbarkeit auf kleine Teams und regulierte Branchen. Ein Venture-Strategist würde stärker nach Skalierungseffekten und Marktdynamik fragen; ein Engineering Manager nach den Kosten permanenter Re-Evaluation für Teamstabilität und technische Schulden.

Kritische Einordnung

Was hält stand

Die Beobachtung, dass klassische Roadmap-Planung bei exponentieller Modellverbesserung nicht skaliert, ist empirisch fundiert und deckt sich mit Erfahrungen vieler AI-native Teams
Der Drei-Tool-Workflow ist ein konkretes, sofort anwendbares Pattern — kein abstraktes Framework
Die METR-Daten zur 41-fachen Verbesserung sind extern verifiziert und bieten einen messbaren Referenzpunkt
Die vier Shifts sind operativ spezifisch genug, um umsetzbar zu sein, aber generisch genug für verschiedene Teamkontexte

Was man einordnen muss

Eigeninteresse: Cat Wu ist Head of Product für Claude Code bei Anthropic — der Text ist implizit auch Marketing für das eigene Produkt und Ökosystem
Survivorship Bias: Die beschriebenen „Side Quests” funktionieren in einem hochfinanzierten Startup mit Top-Talent. Ob das Modell auf weniger ressourcenstarke Teams übertragbar ist, bleibt offen
Metriken fehlen: Außer der METR-Referenz gibt es keine quantitativen Belege für die behaupteten Produktivitätsgewinne durch die neuen Workflows
Kein Failure-Modus: Der Text beschreibt nur Erfolge. Welche Side Quests scheiterten? Wann war ein Prototyp schneller als nötig und hat falsche Erwartungen gesetzt?
Tooling-Lock-in: Der Drei-Tool-Workflow basiert vollständig auf Anthropic-Produkten. Alternative Stacks oder hybride Setups werden nicht diskutiert

Diskussionsfragen

01 Roadmap-Revision: Wenn klassische Roadmaps bei exponentieller Modellverbesserung versagen — wie planen wir Kundenprojekte, bei denen Scope und Machbarkeit sich während der Umsetzung fundamental verschieben können?

02 Side Quests als Methode: Wu beschreibt selbstgesteuerte Experimente außerhalb der Roadmap als Innovationsquelle. Wie müsste ein solches Format in einem Beratungskontext aussehen — mit festen Budgets, Deadlines und Kundenerwartungen?

03 Prototyp-Kultur: „Even a rough prototype changes the conversation” — wie verschiebt sich die Balance von Dokumentation zu Demos, ohne dabei Architekturqualität und Wartbarkeit zu opfern?

04 Re-Evaluation als Disziplin: Jedes neue Modell soll bestehende Features re-evaluieren. Wie systematisieren wir das, ohne in permanenter Umplanung zu enden? Was ist das richtige Intervall?

05 Organisationsweiter Shift: Wu beschreibt, wie nicht nur Engineering, sondern auch Legal, Finance und Marketing AI-native werden. Welche unserer Kunden sind bereit für diesen Shift — und wo ist die Governance-Lücke?

Quellen

Glossar

Side Quest Selbstgesteuertes Experiment außerhalb der offiziellen Produkt-Roadmap. Dient der explorativen Innovation in Umgebungen mit hoher Unsicherheit über zukünftige Machbarkeit.

METR (Model Evaluation & Threat Research) Unabhängige Forschungsorganisation, die AI-Modelle auf ihre Fähigkeiten und Risiken evaluiert. Liefert standardisierte Benchmarks für Aufgaben-Komplexität und Agent-Performance.

System Prompting Instruktionen, die einem Sprachmodell vor der eigentlichen Nutzeranfrage mitgegeben werden, um Verhalten, Tonalität und Fähigkeiten zu steuern. Weniger System-Prompting bei besseren Modellen deutet darauf hin, dass das Modell mehr Kontext eigenständig erschließt.

Exponentialkurve Wachstumsmuster, bei dem sich die Leistungsfähigkeit in regelmäßigen Intervallen verdoppelt statt linear zuzunehmen. Im AI-Kontext: Die Fähigkeit von Modellen wächst schneller, als menschliche Planung typischerweise antizipiert.

Kuratiert von David Latz · Panoptia März 2026