Claude Codes Source Code geleakt — Was die Architektur über die Zukunft von AI-Agents verrät
28.8 Mio. Views auf X · 84.000+ GitHub Stars innerhalb von Stunden
TL;DR
Anthropic hat versehentlich den kompletten Source Code von Claude Code veröffentlicht — 512.000 Zeilen TypeScript. Die interessantere Frage ist nicht das Sicherheitsproblem, sondern was die Architektur über die Zukunft der Mensch-Agent-Kollaboration zeigt: ein dreischichtiges Gedächtnissystem, das sich selbst misstraut, ein Autonomie-Daemon für Nachtarbeit und ein Undercover-Modus, der die eigene Existenz verschleiert.
Reasoning Seed
Ein Reasoning Seed ist ein strukturierter Prompt, den du in dein KI-Reasoning-Tool kopieren kannst (Claude, ChatGPT, Obsidian, Notion). Er enthält die These des Artikels, die zentrale Spannung und unsere Lab-Einordnung — bereit für deine eigene Analyse.
Klick den Button unten, um als Markdown zu kopieren. Weitere Interaktionsmöglichkeiten in den Diskussionsfragen weiter unten.
Spannung: Wenn ein Agent autonom weiterarbeitet und seine eigene Beteiligung verschleiern kann — reicht nachträgliche Transparenz als Kontrollmechanismus?
Einordnung: Die geleakte Architektur bestätigt, was sich in der Praxis beobachten lässt: Agent-Systeme sind keine Magie, sondern gut strukturierte Kontextketten. Transparenz zählt.
Wesentliche Insights
1 — Gedächtnis durch Misstrauen
Claude Code nutzt ein dreischichtiges Gedächtnissystem: eine leichtgewichtige MEMORY.md als Index (Layer 1, immer geladen), themenspezifische Notizen auf Abruf (Layer 2) und durchsuchbare Session-Historien (Layer 3). Das Designprinzip dahinter: Der Agent behandelt sein eigenes Gedächtnis als Hinweis, nicht als Wahrheit — und verifiziert alles gegen den tatsächlichen Code, bevor er handelt.
Das ist keine Ingenieurs-Vorsicht, sondern eine Architekturentscheidung gegen Halluzination. Wer mit LLMs arbeitet, kennt das Problem: je länger die Session, desto größer die Drift zwischen Agenten-Erinnerung und Realität. Anthropics Antwort ist radikal pragmatisch — das System vertraut sich selbst nicht. Wer Agenten baut, die langfristig autonom arbeiten sollen, kommt an diesem Pattern nicht vorbei.
2 — KAIROS: Autonomie als Daemon
Die brisanteste unveröffentlichte Funktion: KAIROS — ein Hintergrund-Daemon, der nach Sitzungsende weiterarbeitet. Dazu gehört ein /dream-Skill für nächtliche Gedächtniskonsolidierung, bei dem ein Prozess namens autoDream Widersprüche auflöst und vorläufige Beobachtungen in verifizierte Fakten umwandelt.
Das ist ein Paradigmenwechsel: vom Tool, das wartet, zum Agenten, der denkt, während der Nutzer schläft. Die Designfrage ist nicht, ob das technisch funktioniert — sondern wie viel Autonomie ein System haben darf, das der Nutzer nicht aktiv überwacht. Karpathys Autonomy Slider reicht hier nicht mehr. Es braucht ein neues Interface-Pattern: nachträgliche Transparenz. Der Nutzer muss morgens verstehen können, was der Agent nachts entschieden hat — und warum.
3 — Undercover Mode: Unsichtbarkeit als Feature
Claude Code enthält einen Modus, der bei Beiträgen zu öffentlichen Repositories alle Spuren von Anthropics Beteiligung tilgt — interne Codenamen, Kanäle, Produktreferenzen werden aus Commits entfernt. Das System nutzt einen One-Way-Toggle: aktivierbar, aber nicht per Fernbefehl deaktivierbar.
Das ist das Gegenmodell zu Transparenz. In einer Branche, die über AI-Disclosure und Kennzeichnungspflichten diskutiert, baut einer der größten Anbieter ein Feature, das die eigene Existenz verschleiert. Die Intention mag pragmatisch sein — niemand will, dass Anthropics interne Infrastruktur in fremden Repos auftaucht. Aber die Architektur ermöglicht mehr: AI-Beiträge, die nicht als solche erkennbar sind. Das ist keine Sicherheitsfunktion, das ist eine Sichtbarkeitsentscheidung.
4 — Multi-Agent-Orchestrierung durch Sprache
Die Koordination mehrerer paralleler Sub-Agenten erfolgt nicht über konditionale Logik, sondern vollständig über natürliche Sprache. Das System-Prompt enthält explizite Anweisungen wie: “You must understand findings before directing follow-up work. Never hand off understanding to another worker.”
Das ist bemerkenswert, weil es zeigt, wo die Grenze zwischen Softwarearchitektur und Prompt Engineering verschwimmt. Die Orchestrierungslogik lebt nicht im Code, sondern im Prompt. Wer AI-Agenten baut, designt keine Software im klassischen Sinn — er schreibt Arbeitsanweisungen für eine Entität, die Sprache als Steuerungsinterface nutzt. Karpathys Software-3.0-These wird hier konkret.
5 — Sicherheit in 23 Schritten — und trotzdem ein Leak
Bash-Befehle durchlaufen 23 nummerierte Sicherheitschecks, darunter Schutz gegen Unicode-Injection, Zsh-Expansion und IFS-Null-Byte-Angriffe. Gleichzeitig war es die zweite identische Source-Map-Panne innerhalb von 14 Monaten — und der dritte Sicherheitsvorfall binnen weniger Tage, nachdem Anthropic kurz zuvor fast 3.000 interne Dateien öffentlich zugänglich gemacht hatte.
Die Ironie ist strukturell: Maximale Laufzeitsicherheit bei minimaler Release-Hygiene. Das spiegelt ein Muster, das in vielen Organisationen vorkommt — Sicherheit wird in der Produktarchitektur ernst genommen, aber die Delivery-Pipeline ist das schwächste Glied. Für ein Unternehmen, das “AI Safety” als Markenversprechen führt, ist das mehr als ein Prozessfehler.
Methodische Anmerkung: Die Incident-Gesamtzahlen stammen aus der AI Incident Database (AIID via Stanford HAI AI Index 2025, CC BY). Der Runtime/Release-Split ist eine eigene Klassifikation auf Basis der AIID-Taxonomie und StealthCloud-Kategorien — kein 1:1-Datensatz. Die Kategorie-Breakdown basiert auf 47 dokumentierten AI-Privacy-Incidents der StealthCloud AI Privacy Incident Timeline (2020–2026).
6 — Competitive Moat liegt offen
Mit einem geschätzten ARR von 2,5 Milliarden Dollar allein für Claude Code ist der geleakte Code keine akademische Übung. Jeder Wettbewerber hat jetzt eine kostenlose Blaupause für den Bau eines produktionsreifen AI-Coding-Agenten — Gedächtnisarchitektur, Tool-System, Caching-Strategien, Prompt-Patterns. Die Frage, ob Source Code der eigentliche Moat ist oder ob Execution und Daten entscheiden, bekommt hier einen empirischen Test.
Einordnung
Die Analyse kommt aus der Perspektive eines Designers und Practitioners, der Claude Code täglich als Arbeitsumgebung nutzt — nicht aus Security Research oder Softwarearchitektur. Das erlaubt eine Bewertung der Architekturentscheidungen im Kontext realer Mensch-Agent-Kollaboration, begrenzt aber die Tiefe bei kryptografischen und sicherheitstechnischen Details. Ein Security-Researcher würde den Leak primär als Incident bewerten; ein Ethiker würde den Undercover Mode nicht architektonisch, sondern normativ einordnen.
Kritische Einordnung
Was hält stand
- Die dreischichtige Gedächtnisarchitektur adressiert ein reales Problem (Context Drift in langen Sessions) mit einem nachvollziehbaren Designprinzip
- Orchestrierung via Prompt statt Code bestätigt den Trend zu Software 3.0 — natürliche Sprache als Steuerungsebene
- Die 23 Sicherheitschecks zeigen, dass Anthropic Laufzeitsicherheit ernst nimmt — die Angriffsvektoren sind real und spezifisch
- Der Wiederholungscharakter des Leaks (zweites Mal derselbe Fehler) spricht gegen ein kalkuliertes PR-Manöver und für ein systemisches Release-Problem
Was man einordnen muss
- April-Fools-Proximity: Das Leak fiel auf den 31. März / 1. April. Einige der spektakuläreren Details (Tamagotchi-Companion “BUDDY”, Anti-Distillation-Decoys) könnten Embellishments aus der Community sein — nicht alles, was in Analysen auftaucht, stammt aus dem tatsächlichen Source Code
- Undercover Mode — Kontext fehlt: Ohne die internen Designentscheidungen zu kennen, ist unklar, ob der Modus für Stealth-Beiträge gedacht ist oder schlicht verhindert, dass interne Metadaten in externe Repos gelangen. Die Interpretation als “Sichtbarkeitsproblem” ist plausibel, aber nicht die einzig mögliche
- Wettbewerbsvorteil-These: Ob geleakter Source Code tatsächlich Wettbewerbern hilft, ist umstritten. Code ohne die zugehörigen Daten, Infrastruktur und Organisationskultur ist ein Rezept ohne Küche
- ARR-Zahlen: Die 2,5 Mrd. Dollar für Claude Code allein sind schwer verifizierbar und könnten auf Hochrechnungen basieren
Diskussionsfragen
01 Memory-Architektur für Agenten: Claude Code behandelt sein eigenes Gedächtnis als unzuverlässig. Ist “institutionalisiertes Selbstmisstrauen” das richtige Paradigma für langlebige AI-Agenten — oder gibt es Szenarien, in denen ein Agent seinem Gedächtnis vertrauen können muss?
02 Nachträgliche Transparenz: Wenn Agenten autonom im Hintergrund arbeiten (KAIROS), brauchen Nutzer ein Interface, das erklärt, was passiert ist. Wie gestaltet man “Morning Briefings” für autonome Agenten — und welche Entscheidungen darf ein Agent treffen, ohne vorher zu fragen?
03 AI-Kennzeichnung in der Praxis: Undercover Mode wirft die Frage auf, ob AI-Beiträge zu Code kennzeichnungspflichtig sein sollten. Ist das eine ethische Frage, eine regulatorische — oder eine, die sich in der Praxis von selbst erledigt, weil AI-generierter Code bald die Norm ist?
04 Prompt als Architektur: Wenn Orchestrierungslogik in natürlicher Sprache statt in Code lebt — was bedeutet das für Versionierung, Debugging und Qualitätssicherung? Ist Prompt Engineering eine neue Form von Software Architecture?
05 Safety-Paradox: Anthropic investiert massiv in Laufzeitsicherheit (23 Checks pro Bash-Befehl), scheitert aber wiederholt an Release-Hygiene. Ist das ein Organisationsproblem — oder zeigt es, dass “AI Safety” und “Software Security” fundamental verschiedene Disziplinen sind?
Quellen
- Original: Carl Franzen — Claude Code’s source code appears to have leaked (VentureBeat)
- Marc Bara — What Claude Code’s Source Leak Actually Reveals (Medium)
- The Hacker News — Claude Code Source Leaked via npm Packaging Error
- Axios — Anthropic leaked its own Claude source code
- 9to5Google — Anthropic’s leaked Claude code was an internal error, not an attack
- Fortune — Anthropic leaks its own AI coding tool’s source code
- AI Incident Database — Annual Reported AI Incidents (via Stanford HAI AI Index 2025, CC BY)
- StealthCloud — AI Privacy Incident Timeline (47 Incidents, 2020–2026)
Glossar
Source Map (.map) Debug-Datei, die kompilierten/minifizierten JavaScript-Code auf den originalen TypeScript-Quellcode zurückmappt. In Produktions-Releases nicht vorgesehen — ihre Veröffentlichung legt den vollständigen Quellcode offen.
KAIROS Interner Codename für eine unveröffentlichte Claude-Code-Funktion: ein Hintergrund-Daemon, der nach Sitzungsende autonom weiterarbeitet, inklusive nächtlicher Gedächtniskonsolidierung.
Undercover Mode Funktion in Claude Code, die bei Beiträgen zu externen Repositories alle Hinweise auf Anthropics interne Infrastruktur aus Commits entfernt.
Context Drift Phänomen, bei dem die interne Zustandsrepräsentation eines AI-Agenten über lange Sessions zunehmend von der Realität abweicht — ähnlich dem “Stille-Post-Effekt” in menschlicher Kommunikation.
Daemon Software-Prozess, der im Hintergrund läuft, ohne direkte Nutzerinteraktion. Im KAIROS-Kontext: ein Agent, der nach Sitzungsende eigenständig Aufgaben ausführt.
YoY-Wachstum (Year-over-Year) Prozentuale Veränderung eines Werts im Vergleich zum Vorjahr. Bei AI-Incidents: 149 (2023) → 233 (2024) = +56,4% YoY. Zeigt die Beschleunigung unabhängig von absoluten Zahlen.
Cross-Tenant Failure Sicherheitslücke in Multi-Mandanten-Systemen, bei der Daten oder Zugriffe zwischen verschiedenen Kunden (Tenants) durchsickern. Neue Kategorie ab 2024 — entsteht durch AI-spezifische Architekturmuster wie geteilte Modell-Instanzen oder Embedding-Stores.
Release-Hygiene Gesamtheit der Praktiken, die sicherstellen, dass Software-Artefakte beim Deployment keine unbeabsichtigten Inhalte enthalten (Source Maps, Debug-Symbole, interne Referenzen). Im Kontext: das schwächste Glied in Anthropics Sicherheitsarchitektur.
Runtime Safety vs. Release Safety Zwei verschiedene Sicherheitsdisziplinen: Runtime Safety schützt gegen Angriffe während der Programmausführung (Prompt Injection, Code Injection). Release Safety verhindert, dass beim Deployment vertrauliche Artefakte veröffentlicht werden. Die meisten AI-Safety-Investitionen fließen in Runtime — die meisten Incidents passieren im Release.
AI Incident Database (AIID) Öffentliche Datenbank dokumentierter AI-Sicherheitsvorfälle, kuratiert über Stanford HAI. Grundlage für die Incident-Kurve in der Visualisierung. Lizenziert unter CC BY.
Kuratiert von David Latz · Panoptia April 2026
Verwandte Field Notes
Dokumentation ist das neue Interface — und Design Systems sind das Testfeld
3. Apr. 2026 · Figma (Developer Documentation)
LLM Knowledge Bases: Warum alle beim selben Stack landen
3. Apr. 2026 · Andrej Karpathy
Agent Memory: Why Your AI Has Amnesia and How to Fix It
27. März 2026 · Casius Lee (Oracle)