Agent Memory: Why Your AI Has Amnesia and How to Fix It

27. März 2026 · David Latz

TL;DR

AI-Agenten vergessen alles zwischen zwei Gesprächen. Der Artikel zeigt, warum größere Context Windows das Problem nicht lösen — und wie vier Gedächtnistypen aus der Kognitionswissenschaft die Grundlage für persistente Agent Memory bilden.

Reasoning Seed

Spannung: Wenn Agenten ihr eigenes Gedächtnis verwalten und entscheiden, was sie vergessen — wer kontrolliert dann, was als Wissen gilt?

Einordnung: Agent Memory ist das fehlende Stück zwischen Session und Kontinuität. Genau diese Brücke entsteht — mit strukturiertem Kontext statt flüchtiger Chat-History.

Wesentliche Insights

1 — Vier Gedächtnistypen, direkt aus der Kognitionswissenschaft

Das CoALA-Framework (Princeton, 2023) definiert vier Memory-Typen für AI-Agenten, abgeleitet aus der SOAR-Architektur der 1980er: Working Memory (aktuelle Konversation), Procedural Memory (System-Prompts, Entscheidungslogik), Semantic Memory (akkumuliertes Wissen, Präferenzen) und Episodic Memory (vergangene Interaktionen, Erfahrungsprotokolle). Die Analogie zum menschlichen Gedächtnis ist kein Zufall — jedes große Framework im Feld baut auf dieser Taxonomie auf. Lilian Wengs Formel bringt es auf den Punkt: Agent = LLM + Memory + Planning + Tool Use.

2 — Context Windows sind kein Gedächtnis

Die Expansion der Context Windows auf Hunderttausende bis Millionen Tokens hat eine “Illusion of Memory” erzeugt. Aber: Modelle degradieren deutlich vor ihrem Limit (ein 200K-Token-Modell wird oft ab 130K unzuverlässig). Jeder Token wird gleich gewichtet — keine Priorisierung, keine Relevanzfilterung. Und: Schließt man die Session, ist alles weg. Mehr Platz auf dem Post-it macht es nicht zum Gedächtnis.

3 — RAG und Memory lösen unterschiedliche Probleme

RAG bringt externes Wissen zum Zeitpunkt der Anfrage in den Prompt — gut für faktenbasierte Antworten. Aber RAG ist zustandslos: kein Bewusstsein für frühere Interaktionen, keine Nutzeridentität, kein Zusammenhang zwischen Anfragen. Memory bringt Kontinuität. RAG hilft einem Agenten, besser zu antworten. Memory hilft ihm, zu lernen und sich anzupassen. Man braucht beides, aber sie lösen fundamental verschiedene Probleme.

4 — Zwei Strategien: Hot Path vs. Background Memory

LangChain unterscheidet zwei Ansätze für Memory-Updates: Hot Path — der Agent entscheidet explizit vor der Antwort, was er sich merkt (höhere Latenz, sofortige Verfügbarkeit). Background — ein separater Prozess extrahiert und speichert Erinnerungen während oder nach der Konversation (keine Latenz, aber verzögerte Verfügbarkeit). Dazu kommt die Unterscheidung zwischen programmatischer Memory (Entwickler definiert, was gespeichert wird) und agentischer Memory (der Agent entscheidet selbst). Das Feld bewegt sich Richtung Letzteres — Agenten, die ihr eigenes Gedächtnis verwalten.

5 — Vergessen ist ein Feature, kein Bug

Effektives Vergessen durch Decay Functions: Ein Relevanz-Score multipliziert semantische Ähnlichkeit mit einem exponentiellen Zeitverfall seit dem letzten Abruf. Erinnerungen, die lange nicht abgerufen wurden, verlieren graduell an Bedeutung — analog zum biologischen Gedächtnis. Alternative: alte Fakten werden invalidiert, aber nie gelöscht — für Audit Trails und historische Genauigkeit. Die vier Kernoperationen jedes Memory-Systems: ADD, UPDATE, DELETE, SKIP. Moderne Systeme delegieren diese Entscheidungen an das LLM selbst statt an if/else-Logik.

6 — Ein Knowledge OS ist bereits gelebte Agent Memory

Was der Artikel als Enterprise-Infrastruktur beschreibt, existiert in vereinfachter Form bereits in jedem gut strukturierten Knowledge OS. Die Übersetzung:

Procedural Memory: CLAUDE.md, workflow.md, Skills — codierte Arbeitsweisen, Konventionen, Entscheidungslogik. Manuell gepflegt, git-versioniert.
Semantic Memory: auto memory (user/feedback-Dateien), Vault-Inhalte (knowledge/, business/) — akkumuliertes Wissen über den Nutzer und die Domäne.
Episodic Memory: Session-Issues in Linear, auto memory (project/reference), git history — Protokolle vergangener Interaktionen und Entscheidungen.
Working Memory: Das Context Window der aktuellen Claude-Code-Session, inklusive Plan Files und geladener Dateien.

Die Lücken werden sichtbar: kein Relevance Scoring im Vault, kein systematisches Vergessen, fragmentierter Recall über episodische Quellen hinweg. Die Taxonomie macht diese Lücken benennbar — und damit bearbeitbar.

Einordnung

Die Kuratierung erfolgt aus der Perspektive eines Practitioners, der seit Monaten ein dateibasiertes Wissenssystem mit LLM-Agenten operativ betreibt — die Brücke zwischen dem akademischen Memory-Framework und der eigenen Praxis ist keine theoretische Übung, sondern tägliche Erfahrung. Das schärft den Blick für pragmatische Lücken in Enterprise-Architekturen, schränkt aber die Bewertung der Datenbankseite ein. Ein Distributed-Systems-Ingenieur würde die Skalierungs- und Konsistenzfragen anders gewichten; ein Kognitionswissenschaftler würde die Analogie zum menschlichen Gedächtnis kritischer prüfen, als der Artikel es tut.

Kritische Einordnung

Was hält stand

Die CoALA-Taxonomie ist akademisch fundiert (Princeton 2023, aufbauend auf SOAR aus den 1980ern) und hat sich als Lingua Franca des Feldes etabliert
Die Differenzierung RAG vs. Memory ist praxisrelevant und wird in der Branche häufig verwechselt — der Artikel klärt das sauber
Vergessen als explizites Feature zu behandeln statt als Fehler — ein Perspektivwechsel, den die meisten Implementierungen ignorieren
Der Frameworks-Überblick (LangChain, Letta, Zep, Mem0) ist aktuell und gibt eine brauchbare Orientierung

Was man einordnen muss

Oracle-Vendor-Perspektive: Der Artikel mündet in “Converged Database” als Antwort auf alles. Die Memory-Taxonomie ist valide, die Schlussfolgerung (“ihr braucht Oracle”) ist Marketing
Enterprise-Bias: ACID-Transaktionen über Memory-Typen, Row-Level Security, Multi-Tenancy — relevant für Großkonzerne, irrelevant für 95% der Practitioner, die mit dateibasierter Memory arbeiten
Blinder Fleck für Pragmatismus: Kein Wort über einfache, dateibasierte Memory-Systeme wie Claude Codes auto memory oder Markdown-basierte Knowledge Bases. Der Artikel ignoriert, dass die meisten funktionierenden Agent-Memory-Systeme heute auf Dateien, nicht auf Datenbanken laufen
Sleep-Time Computation: Als Zukunftsvision dargestellt, aber ohne eigene Daten — OpenAI und Letta werden zitiert, Oracle hat hier nichts Eigenes vorzuweisen

Diskussionsfragen

01 Knowledge OS als Memory-Architektur: Wenn man ein strukturiertes Vault-System durch die CoALA-Linse betrachtet — wo sind die strukturellen Lücken? Working und Procedural Memory sind stark, aber Semantic und Episodic Memory sind fragmentiert über verschiedene Systeme (auto memory, Linear, git). Wie sähe eine kohärente Architektur aus?

02 Vergessen im Vault: Git vergisst nichts — jede Änderung bleibt in der History. Aber ein Knowledge OS, das nie vergisst, akkumuliert Rauschen. Wie implementieren wir “Forgetting” in einem System, das auf Versionskontrolle basiert? Decay-Scores auf Markdown-Dateien? Archivierungs-Automatismen? Oder ist git-basiertes “alles behalten” ein Feature?

03 Programmatisch vs. Agentisch: Claude Codes auto memory entscheidet selbst, was es speichert — das ist agentische Memory. CLAUDE.md und workflow.md sind programmatisch — wir definieren, was der Agent wissen soll. Wo verschieben wir die Grenze? Mehr agentische Kontrolle bedeutet weniger Wartung, aber auch weniger Vorhersagbarkeit.

04 Client-Kommunikation: Wie lässt sich der Unterschied zwischen RAG (das viele Organisationen bereits nutzen) und persistenter Memory (die den tatsächlichen Unterschied macht) vermitteln? Welche Sprache funktioniert, wenn “Agent Memory” nach Science-Fiction klingt, aber “euer Chatbot vergisst alles nach jedem Gespräch” sofort verstanden wird?

Quellen

Glossar

Agent Memory Persistenter, sich entwickelnder Zustand, der AI-Agenten über Sessions hinweg Kontext gibt. Nicht zu verwechseln mit dem Context Window (flüchtig) oder RAG (zustandslos).

CoALA (Cognitive Architectures for Language Agents) Framework aus Princeton (2023), das vier Gedächtnistypen für AI-Agenten definiert — abgeleitet aus der kognitiven SOAR-Architektur. Lingua Franca des Feldes.

Working Memory Der aktuelle Konversationskontext — was der Agent gerade “denkt”. Entspricht dem Context Window. Schnell, aber flüchtig.

Procedural Memory Codierte Verhaltensregeln: System-Prompts, Tool-Definitionen, Entscheidungslogik. Das “Muskelgedächtnis” eines Agenten.

Semantic Memory Akkumuliertes Faktenwissen: Nutzerpräferenzen, extrahierte Fakten, Knowledge Bases. Wächst über die Zeit.

Episodic Memory Protokolle vergangener Erfahrungen: Konversationslogs, Aktionssequenzen, Few-Shot-Beispiele. Das “autobiografische Gedächtnis” des Agenten.

Decay Function Mathematische Funktion, die den Relevanz-Score einer Erinnerung über die Zeit reduziert — imitiert biologisches Vergessen. Semantische Ähnlichkeit × exponentieller Zeitverfall.

PARA (Projects, Areas, Resources, Archives) Organisationsmethode von Tiago Forte für persönliches Wissensmanagement. Vier Kategorien nach Handlungsrelevanz, nicht nach Thema. Grundlage vieler Knowledge-Management-Systeme, die jetzt mit LLM-Agenten kombiniert werden.

Tiago Forte Autor von “Building a Second Brain” und Entwickler der PARA-Methode. Einer der einflussreichsten Denker im Bereich Personal Knowledge Management — sein Framework wird zunehmend als Basis für AI-gestützte Wissenssysteme adaptiert.

Kuratiert von David Latz · Panoptia März 2026