Warum LLMs in langen Dialogen den Faden verlieren – eine Analyse von Aufmerksamkeitsabfall und Drift

In Drift und fehlende Persistenz in der Kollaboration mit LLMs habe ich eine Reihe von wiederkehrenden Phänomenen bei der Zusammenarbeit mit großen Sprachmodellen (LLMs) beschrieben, darunter „Drift“ und „fehlende Persistenz“. In diesem Beitrag fasse ich meine ersten Erkenntnisse aus der dort angekündigten Literaturrecherche zusammen, um diese Beobachtungen aus der Praxis wissenschaftlich einzuordnen und zu erklären.

Das Phänomen: Beobachtungen aus der Praxis und ihre wissenschaftliche Terminologie

Die in der Praxis beobachteten Probleme bei der Langzeit-Kollaboration mit LLMs sind in der aktuellen Forschung gut dokumentiert. Dabei zeigt sich, dass das, was wir intuitiv als „Faden verlieren“ wahrnehmen, in der Wissenschaft in verschiedene, messbare Kategorien unterteilt wird.

Die folgende Tabelle ordnet meine Beobachtungen den etablierten Fachbegriffen der Spitzenforschung (Stand 2024/2025) zu:

Meine Praxisbeobachtung ^[1]	Wissenschaftlicher Begriff
Allgemeiner Drift (Abweichen vom Ziel)	Instruction Drift / Context Drift (Dongre et. al.^[2])
Begriffsdrift (Instabilität bei Umformulierungen)	Prompt-Based Semantic Shift (PBSS) (Li et al.^[3])
Rollendrift (Verlust von Stil/Persona)	Identity Drift (Choi et al.^[3])
Fehlende Persistenz (Vergessen von Details)	Context Rot / Attention Decay (Li et al.^[3])
Stabilitätsverlust (Zusammenbruch in langen Chats)	Long-chat degradation / Instability (Li et al.^[3])

Im Kern beschreiben diese Begriffe die abnehmende Fähigkeit eines Modells, über längere Interaktionen hinweg kohärent zu bleiben. Eine Analyse von Dongre et al.^[2] verdeutlicht, dass es sich hierbei um einen dynamischen Prozess handelt: Das Modell driftet oft nicht ins völlige Chaos ab, sondern stabilisiert sich in einem neuen, vom Nutzer ungewollten Zustand – einem sogenannten Context Equilibrium (Kontext-Gleichgewicht). Hat das Modell einmal diesen „falschen Pfad“ eingeschlagen, verharrt es dort oft mit hoher Beständigkeit.

Besonders faszinierend ist der Bereich des Identity Drift. Während man vermuten könnte, dass leistungsfähigere Modelle ihre zugewiesene Rolle besser halten, zeigt die Studie von Choi et al.^[3] das Gegenteil: Größere Modelle neigen paradoxerweise zu einem stärkeren Identity Drift als kleinere. Ihre komplexeren internen Strukturen reagieren empfindlicher auf minimale Schwankungen im Gesprächsverlauf, wodurch sie ihren ursprünglichen Stil oder ihre Persona schneller einbüßen.

Ergänzend dazu adressiert der Begriff Prompt-Based Semantic Shift (PBSS) von Li et al.^[3] das Problem der Begriffsinstabilität. Hier wird beschrieben, wie LLMs auf semantisch identische, aber unterschiedlich formulierte Prompts mit massiven Verhaltensänderungen reagieren können. Dies erklärt, warum ein Modell in einem langen Dialog plötzlich Begriffe anders interpretiert, nur weil sich die Nuancen der Wortwahl im Chatverlauf minimal verschoben haben.

Zusammenfassend lässt sich sagen: Das Hauptproblem ist kein Nachlassen der grundsätzlichen „Intelligenz“ des Modells, sondern eine systembedingte Unzuverlässigkeit, die durch die mathematische Struktur der Aufmerksamkeit (Attention) bedingt ist.

Die technische Ursache: Aufmerksamkeitsabfall im Transformer-Modell

Transformer-Modelle, die Architektur hinter LLMs wie GPT, funktionieren über einen sogenannten Aufmerksamkeitsmechanismus (Attention). Bei der Generierung jedes neuen Wortes (Tokens) blickt das Modell auf alle vorherigen Tokens im Kontext zurück und weist jedem eine Gewichtung zu. Tokens, die für die nächste Vorhersage als besonders relevant erachtet werden, erhalten eine hohe Aufmerksamkeit.

Die Forschung zeigt jedoch, dass dieser Mechanismus in langen Dialogen an einer entscheidenden Schwäche leidet: dem Attention Decay (Aufmerksamkeitsabfall). Die Studie „Measuring and Controlling Instruction (In)Stability“ von Li et al. ^[3] zeigt dabei eine wichtige Nuance auf: Dieser Abfall geschieht nicht nur sprunghaft zwischen den einzelnen Gesprächsrunden („turns“). Vielmehr beginnt der Prozess bereits unmittelbar während der Generierung einer einzelnen Antwort. Die Aufmerksamkeit auf den System-Prompt ist beim ersten Wort (Token) der Antwort am höchsten und sinkt dann rapide ab, während das Modell die Antwort Wort für Wort vervollständigt.

Dieser technische Mechanismus des mathematischen Abfalls ist die direkte Ursache für das beobachtbare Phänomen des Recency Bias (vgl. Clark et al.^[4]). Da weiter zurückliegende Informationen (wie die ursprüngliche Anweisung) systematisch weniger Gewicht erhalten, gewinnen die unmittelbar vorangegangenen Redebeiträge – auch fehlerhafte oder irrelevante – übermäßig an Bedeutung.

Besonders aufschlussreich für das Verständnis von Drift ist die aktuelle Forschung von Dongre et al.^[2]. Sie weisen nach, dass dieser Prozess oft nicht in einem völligen „Absturz“ oder wirren Antworten endet. Stattdessen erreichen Modelle ein sogenanntes Context Equilibrium (Kontext-Gleichgewicht). Das bedeutet: Das Modell verlässt zwar den vom Nutzer gewünschten Pfad (den Instruktionen), stabilisiert sich aber in einem neuen, ungewollten Zustand – etwa einer anderen Identität oder einem veränderten Stil. Einmal in diesem neuen Gleichgewicht angekommen, verharrt das Modell dort stabil, was es für den Nutzer so schwierig macht, den Dialog ohne einen Neustart wieder „einzufangen“.

Zusammenfassend lässt sich sagen: Der Attention Decay ist der mathematische Prozess, der zum Recency Bias führt, welcher wiederum den Instruction Drift befeuert, bis das Modell schließlich in einem falschen, aber stabilen Gleichgewicht landet.

Forscher haben nicht nur die theoretische Ursache identifiziert, sondern auch Methoden entwickelt, um dieses Problem in der Praxis messbar zu machen.

Die Messbarkeit: Von der Beobachtung zum Beweis

Dass der „Instruction Drift“ kein rein subjektives Empfinden ist, konnte die Forschung durch standardisierte Messverfahren belegen. Die Wissenschaft nutzt hierfür kontrollierte Versuchsaufbauten, um die Stabilität von Modellen über hunderte von Dialogrunden hinweg objektiv zu validieren.

In Studien wie der von Li et al.^[3] wird dieser Nachweis erbracht, indem man zwei KI-Instanzen in einen automatisierten Selbst-Chat schickt. Durch das regelmäßige Einstreuen von neutralen Testfragen (Probe Questions) lässt sich exakt bestimmen, ab welcher Gesprächsrunde die Konzentration des Modells nachlässt und es beginnt, die ursprünglichen Instruktionen zu vernachlässigen. Diese Experimente belegen eindeutig: Der Drift ist eine reproduzierbare Realität der aktuellen Modellgenerationen.

Ein Ausblick: Wie misst man Drift selbst? Die Frage, wie man diesen Drift mathematisch präzise quantifiziert – also ab welchem Punkt eine KI statistisch gesehen „falsch abbiegt“ – ist ein extrem spannendes Feld für sich. Die Wissenschaft nutzt hierfür hochinteressante Ansätze wie die KL-Divergenz (ein Maß für die Abweichung von Wahrscheinlichkeitsverteilungen) oder automatisierte „LLM-Judges“, die das Verhalten bewerten. Da die methodische Messung von KI-Verhalten jedoch ein sehr technisches und umfangreiches Thema ist, habe ich mich entschieden, dies hier nicht weiter zu vertiefen, sondern möglicherweise im Rahmen einer separaten Analyse mal genauer zu untersuchen.

Lösungsansätze: Von technischen Eingriffen bis zu praktischen Strategien

Um dem Aufmerksamkeitsabfall und dem daraus resultierenden Drift entgegenzuwirken, hat die Forschung zwei Wege identifiziert: Modifikationen direkt am Kern des Modells und strategische Interaktionen durch den Nutzer.

Technische Lösungsansätze aus der Forschung

Diese Methoden setzen an der mathematischen Berechnung der Aufmerksamkeit an:

Split-Softmax (Li et al.^[3]) Diese Methode skaliert die Aufmerksamkeitsgewichte während der Laufzeit (Inferenz) neu. Dabei wird der System-Prompt isoliert betrachtet und sein Einfluss künstlich verstärkt, um zu verhindern, dass er im „Rauschen“ des restlichen Dialogs untergeht.
Attention with Linear Biases (ALiBi) (Clark et al. ^[4]) Hier wird ein systematischer Malus für weiter entfernte Informationen bereits im Training verankert. Durch eine Mischung unterschiedlicher Abklingraten („mixture of slopes“) kann das Modell gleichzeitig kurzfristige Bezüge und langfristige Kontext-Abhängigkeiten stabil verarbeiten.

Während Split-Softmax eine korrektive, eingriffsbasierte Methode zur Laufzeit darstellt, ist ALiBi eine präventive, architektonische Anpassung, die bereits im Training des Modells verankert wird.

Praktische Strategien für Anwender

Neben technischen Eingriffen gibt es hocheffektive Strategien, die das Verhalten des LLM stabilisieren:

Self-Reflection (Selbstreflexion) (Renze et al. ^[5]): Einer der wirkungsvollsten Ansätze ist die explizite Aufforderung zur Selbstkorrektur. Studien belegen, dass LLMs ihre Problem-Lösungskompetenz signifikant steigern, wenn sie im Dialog angewiesen werden, ihre vorherigen Schritte kritisch zu reflektieren. Dies wirkt wie eine „kognitive Bremse“ gegen den schleichenden Drift.
Gezielte Interventionen (Dongre et al.^[2]): Wenn ein Modell in einem „falschen Gleichgewicht“ verharrt (z. B. stur in einer falschen Rolle bleibt), helfen oft nur harte Interventionen. Das kann das bewusste Zurücksetzen von Parametern sein oder – für den Anwender – das radikale Löschen von irrelevant gewordenen Kontext-Teilen (z. B. durch Zusammenfassungen), um das Modell aus dem Drift-Zustand „herauszustoßen“.
Kontext-Management (Chunking & Summarizing auf Basis eigener Erfahrungen):
- Modularisierung: Komplexe Aufgaben in kleine, abgeschlossene Einheiten (Chunks) unterteilen.
- Rekontextualisierung: Regelmäßige Zusammenfassungen des bisher Erreichten „frischen“ die Aufmerksamkeit des Modells auf die wesentlichen Kernpunkte auf.
- Externe Kontextverwaltung: Wichtige Informationen (z. B. Regeln, Definitionen, Schlüsselentscheidungen) in ein externes Dokument auslagern. Diese dann bei Bedarf gezielt wieder in den Prompt einbinden, anstatt sich darauf zu verlassen, dass das Modell sie aus einem langen Verlauf extrahiert.

Diese Ansätze helfen, die Grenzen des Aufmerksamkeitsmechanismus im Alltag zu umgehen.

Zusammenfassung und Fazit

Die Literaturrecherche bestätigt meine Erkenntnisse ^[1] eindrücklich: Phänomene wie „Drift“, „fehlende Persistenz“ und „Identitätsverlust“ sind keine zufälligen Fehler, sondern systematische Effekte der Transformer-Architektur. Ihre gemeinsame Ursache liegt im Attention Decay (Aufmerksamkeitsabfall), der mathematisch zwangsläufig zu einem Recency Bias führt.

Die wichtigste Erkenntnis für die Praxis ist: Das Problem betrifft die Zuverlässigkeit, nicht die Intelligenz. Ein LLM verliert nicht seine Fähigkeit zu schlussfolgern, aber es verliert den roten Faden. Dabei zeigt die Forschung von Dongre et al.^[2] eine wichtige Nuance: Der Drift endet oft nicht in völliger Unbrauchbarkeit, sondern in einem neuen Context Equilibrium. Das Modell stabilisiert sich in einem Zustand, der zwar in sich konsistent wirkt, aber von den ursprünglichen Zielen des Nutzers weit entfernt ist.

Ein zweiter, fast paradoxer Befund der Wissenschaft (Choi et al.^[3]) lautet: Mehr Rechenpower ist keine Lösung. Größere Modelle neigen sogar zu einem stärkeren Identity Drift. Die Herausforderung bei langen Interaktionen ist daher nicht, die Modelle noch „schlauer“ zu machen, sondern ihre Verlässlichkeit durch neue Methoden wie Split-Softmax (Li et al.^[3]) oder architektonische Anpassungen wie ALiBi (Clark et al. ^[4]) abzusichern.

Für uns Anwender bedeutet das: Wir müssen die KI aktiv „managen“. Strategien wie Self-Reflection (Renze et al. ^[5]) und regelmäßiges Kontext-Management (Summarizing) sind keine bloßen „Hacks“, sondern notwendige Interventionen, um das Modell aus einem falschen Gleichgewicht wieder auf den richtigen Pfad zurückzuholen.

Das Verständnis des Aufmerksamkeitsabfalls ist der erste Schritt, um LLMs von beeindruckenden Chat-Partnern zu verlässlichen Kollaborateuren in komplexen, langfristigen Projekten zu machen.

Ausblick: Perspektiven für die weitere Analyse

Die Untersuchung von Aufmerksamkeitsabfall und Drift markiert erst den Einstieg in ein tieferes Verständnis der LLM-Kollaboration. Um diese Modelle nicht nur intuitiv zu nutzen, sondern sie systematisch zu beherrschen, bieten sich nun verschiedene logische Pfade an, die das Thema aus unterschiedlichen Blickwinkeln beleuchten.

Ein konsequenter Schritt zurück zu den Grundlagen erscheint dabei als eine der wichtigsten Optionen. Oft analysieren wir die Fehler der KI, ohne das „Betriebsheft“ der Engine im Detail zu kennen. Ein Blick unter die Haube der Transformer-Architektur – von der Tokenisierung über Embeddings bis hin zum Aufmerksamkeitsmechanismus – macht erst wirklich verständlich, warum ein Modell statistisch so funktioniert (oder scheitern muss), wie wir es in der Praxis erleben.

Darauf aufbauend eröffnet sich das Feld der quantitativen Messbarkeit. Drift muss kein subjektives Bauchgefühl bleiben; er lässt sich in eine Art „KI-Forensik“ überführen. Hier wäre es ein nächster Schritt, Methoden wie die KL-Divergenz (die mathematische Abweichung von Wahrscheinlichkeitsverteilungen) oder den Einsatz automatisierter LLM-Judges zu untersuchen. Solche Metriken könnten es ermöglichen, die Instabilität eines Dialogs objektiv zu bewerten, noch bevor sie für den menschlichen Nutzer offensichtlich wird.

Ebenso bietet es sich an, die bisherigen Erkenntnisse in ein systematisches Handwerkszeug für Anwender zu überführen. Aus der grauen Theorie könnte so eine echte Methode entstehen: Ein „Drift-resistenter“ Workflow, der Techniken wie die Selbstreflexion oder ein gezieltes Kontext-Management fest in den Arbeitsalltag integriert. Das Ziel wäre hier, die Zusammenarbeit mit der KI über extrem lange Zeiträume verlässlich abzusichern.

References

Christoph Hermanns (2025): Apps bauen mit Google Gemini Canvas. cherware.de / reflectIT, (Ed.): 2025, visited: 08.10.2025.
Vardhan Dongre and Ryan A. Rossi and Viet Dac Lai and David Seunghyun Yoon and Dilek Hakkani-Tür and Trung Bui (2025): Drift No More? Context Equilibria in Multi-Turn LLM Interactions. 2025.
Kenneth Li and Tianle Liu and Naomi Bashkansky and David Bau and Fernanda Viégas and Hanspeter Pfister and Martin Wattenberg (2024): Measuring and Controlling Instruction (In)Stability in Language Model Dialogs. 2024.
Christian Clark and Byung-Doh Oh and William Schuler (2024): Linear Recency Bias During Training Improves Transformers' Fit to Reading Times. 2024.
Matthew Renze and Erhan Guven (2024): Self-reflection in llm agents: Effects on problem-solving performance. In: arXiv preprint arXiv:2405.06682, 2024.

C. M. – Interested Reader

2. December 2025 at 8:52 AM

Ein sehr gelungener Beitrag, der typische LLM-Effekte verständlich einordnet.

Vielleicht wäre ein kurzes Fazit mit konkreten Empfehlungen für die tägliche Nutzung von LLM-Chats (z. B. Prompt-Pattern, Zusammenfassungen, Chunking) noch ein schönes Add-on, um die Praxisnähe weiter zu stärken. Insgesamt aber ein klasse Beitrag für alle, die über das „Warum?“ hinter typischen Chat-Phänomenen nachdenken!

Christoph Hermanns
4. December 2025 at 6:12 AM

Guter Impuls! Danke für den Kommentar!

Really enjoyed reading about your first hands-on experiments with Nano Banana! The lightning-fast generation, rock-solid character consistency from reference images,…

Die NIS‑2-Betroffenheitsprüfung des BSI bietet ebenfalls eine sehr an die Gesetzeslage orientierte Ersteinschätzung und arbeitet ebenso anonym, präzise und praxisorientiert.…

Update zum aktuellen Stand: Das NIS-2-Umsetzungsgesetz ist inzwischen offiziell in Kraft. Laut Pressemitteilung des BSI wurde das Gesetz am 5.…

Guter Impuls! Danke für den Kommentar!

Ein sehr gelungener Beitrag, der typische LLM-Effekte verständlich einordnet. Vielleicht wäre ein kurzes Fazit mit konkreten Empfehlungen für die tägliche…