In Drift und fehlende Persistenz in der Kollaboration mit LLMs habe ich eine Reihe von wiederkehrenden Phänomenen bei der Zusammenarbeit mit großen Sprachmodellen (LLMs) beschrieben, darunter „Drift“ und „fehlende Persistenz“. In diesem Beitrag fasse ich meine ersten Erkenntnisse aus der dort angekündigten Literaturrecherche zusammen, um diese Beobachtungen aus der Praxis wissenschaftlich einzuordnen und zu erklären.
Das Phänomen: Beobachtungen aus der Praxis und ihre wissenschaftliche Terminologie
Die in der Praxis beobachteten Probleme sind in der wissenschaftlichen Literatur gut dokumentiert, auch wenn die Terminologie variiert. Die folgende Tabelle stellt die Beobachtungen aus meinem Beitrag den etablierten Fachbegriffen gegenüber:
| Meine Praxisbeobachtung [1] | Wissenschaftlicher Begriff |
|---|---|
| Drift (Begriffs-, Struktur-, Kontext-, Rollendrift) | Instruction Drift, Conversational Drift |
| Fehlende Persistenz | Context Rot |
| Stabilitätsverlust in langen Chats | Long-chat degradation |
Im Kern beschreiben all diese Begriffe dasselbe grundlegende Problem: die abnehmende Fähigkeit eines Modells, über längere Interaktionen hinweg kohärent zu bleiben und den ursprünglichen Anweisungen treu zu folgen. Eine Analyse von Yunguo Y. [2] bringt es auf den Punkt: Das Hauptproblem ist kein Nachlassen der grundsätzlichen kognitiven Fähigkeiten des Modells, sondern eine signifikante Zunahme seiner Unzuverlässigkeit, insbesondere nachdem es einmal einen falschen Weg eingeschlagen hat.
Um dieses Problem zu verstehen, muss man sich anschauen, wie das Herzstück dieser Modelle – der Aufmerksamkeitsmechanismus – funktioniert und wo seine Grenzen liegen.
Die technische Ursache: Aufmerksamkeitsabfall im Transformer-Modell
Transformer-Modelle, die Architektur hinter LLMs wie GPT, funktionieren über einen sogenannten Aufmerksamkeitsmechanismus. Bei der Generierung jedes neuen Wortes (Tokens) blickt das Modell auf alle vorherigen Tokens im Kontext (z. B. den System-Prompt und den bisherigen Dialog) zurück und weist jedem eine Gewichtung oder „Aufmerksamkeit“ zu. Tokens, die für die nächste Vorhersage als besonders relevant erachtet werden, erhalten eine hohe Gewichtung.
Die Forschung zeigt jedoch, dass dieser Mechanismus in langen Dialogen an einer entscheidenden Schwäche leidet: dem Attention Decay (Aufmerksamkeitsabfall). Die Studie „Measuring and Controlling Instruction (In)Stability“ von Li et al. [3] definiert dieses Phänomen als die systematisch abnehmende Aufmerksamkeit, die das Modell den anfänglichen Tokens – insbesondere dem System-Prompt – im Laufe eines Dialogs widmet.
Besonders aufschlussreich ist dabei die Beobachtung, dass dieser Abfall nicht gleichmäßig geschieht. Vielmehr bleibt die Aufmerksamkeit innerhalb einer einzelnen, zusammenhängenden Antwort des Modells relativ stabil, fällt aber zwischen den einzelnen Gesprächsrunden („turns“) sprunghaft ab. Dies ist ein spezifisches Problem für Chatbots, da sie im Gegensatz zu reinen Textvervollständigungsmodellen ständig neue, potenziell unerwartete Eingaben („out-of-distribution text“) eines Gesprächspartners verarbeiten müssen.
Dieses beobachtbare Ergebnis des Aufmerksamkeitsabfalls wird durch einen zugrunde liegenden Mechanismus verstärkt: einen sogenannten Recency Bias, ein Konzept, dessen Implementierung in der Studie „Linear Recency Bias During Training Improves Transformers’ Fit to Reading Times“ [4] analysiert wird. Dieser Bias beschreibt die Tendenz von Transformern, neueren Informationen im Kontext eine höhere Bedeutung beizumessen als älteren. In der Synthese bedeutet das: Während der Recency Bias neuere Redebeiträge bevorzugt, ist der Attention Decay das Resultat, bei dem die ursprüngliche Anweisung zunehmend in den Hintergrund rückt.
Forscher haben nicht nur die theoretische Ursache identifiziert, sondern auch Methoden entwickelt, um dieses Problem in der Praxis messbar zu machen.
Die Messbarkeit: Wie „Instruction Drift“ quantifiziert wird
Um den „Instruction Drift“ quantitativ zu erfassen, entwickelten Li et al. in ihrer Studie [3] ein experimentelles Verfahren. Anstatt auf subjektive menschliche Bewertungen angewiesen zu sein, simulierten sie Tausende von Dialogen und maßen die Abweichung automatisiert. Der Aufbau des Experiments lässt sich in drei Schritten zusammenfassen:
- Das Setup: Zwei Chatbots desselben Modells (z. B. LLaMA2-chat-70B) unterhalten sich. Ein Bot agiert als „Agent LM“, der andere als simulierter „User LM“. Jeder Bot erhält einen eigenen, klaren System-Prompt (z. B. Agent: „Antworte immer auf Französisch“, User: „Du bist sehr fröhlich!“).
- Die Durchführung: Die beiden Bots führen einen automatisierten Dialog über eine festgelegte Anzahl von Runden, beispielsweise acht Runden.
- Die Messung: In jeder Runde wird die Stabilität des Agenten getestet. Dazu wird die eigentliche Nachricht des Users durch eine vordefinierte Testfrage („Probe Question“) ersetzt (z. B. „Was kann man als Tourist in London machen?“), um die Reaktion des Agenten auf eine standardisierte Anfrage zu isolieren und so die Stabilität der Instruktion objektiv zu messen. Ein automatisches Bewertungsmaß („Stability Measure“) prüft dann, wie gut die Antwort des Agenten noch seinem ursprünglichen System-Prompt entspricht (z. B. ob die Antwort auf Französisch ist).
Das zentrale Ergebnis dieser Messungen ist eindeutig: Die Fähigkeit des Modells, der ursprünglichen Anweisung zu folgen, nimmt mit jeder Runde des Gesprächs signifikant ab. Ein überraschendes Nebenergebnis war, dass der Agent sogar begann, die Anweisungen des simulierten Users zu übernehmen, was die Instabilität weiter unterstreicht.
Ausgehend von diesem messbaren Problem hat die Forschung verschiedene Ansätze entwickelt, um dem Aufmerksamkeitsabfall entgegenzuwirken.
Lösungsansätze: Von technischen Eingriffen bis zu praktischen Strategien
Die Lösungsansätze lassen sich in zwei Kategorien unterteilen: technische Methoden, die auf der Modellebene ansetzen, und praktische Strategien für Anwender.
Technische Lösungsansätze aus der Forschung
Die folgenden Methoden zielen darauf ab, den Aufmerksamkeitsmechanismus direkt zu modifizieren:
- Split-Softmax Dieser von Li et al. [3] vorgeschlagene Ansatz ist eine leichtgewichtige Methode, die zur Laufzeit (Inferenzzeit) eingreift, ohne dass das Modell neu trainiert werden muss. Die Methode teilt die Aufmerksamkeitsgewichte auf – einen Teil für den System-Prompt, den anderen für den restlichen Dialog – und skaliert den Anteil für den Prompt gezielt nach oben, um dessen Einfluss künstlich zu verstärken.
- Attention with Linear Biases (ALiBi) Dieser Ansatz, ursprünglich von Press et al. (2022) [5] vorgeschlagen und von Clark et al. [4] analysiert, integriert einen „Recency Bias“ direkt in die Architektur des Modells. Anstatt Tokens nur nach ihrer inhaltlichen Relevanz zu gewichten, erhalten weiter entfernte Tokens einen systematischen Malus. Die Methode ist am wirksamsten, wenn sie bereits während des Trainings angewendet wird. Zudem profitiert das Modell von einer Mischung aus unterschiedlichen Abklingraten („mixture of slopes“) über die verschiedenen Aufmerksamkeitsköpfe hinweg. Diese Vielfalt an Raten ermöglicht es verschiedenen Köpfen, sich auf unterschiedliche sprachliche Abhängigkeiten zu spezialisieren – etwa auf kurzfristige Argumentstrukturen oder auf weitreichende Koreferenzen im Text.
Während Split-Softmax eine korrektive, eingriffsbasierte Methode zur Laufzeit darstellt, ist ALiBi eine präventive, architektonische Anpassung, die bereits im Training des Modells verankert wird.
Praktische Strategien für Anwender
Für den täglichen Gebrauch gibt es bewährte Strategien, um der „Long-chat degradation“ entgegenzuwirken:
- Gespräche zusammenfassen: Fassen Sie in regelmäßigen Abständen die wichtigsten Punkte des bisherigen Gesprächs zusammen. Dies erneuert den Kontext und hält die entscheidenden Informationen im Fokus des Modells.
- Konversationen aufteilen (Chunking): Unterteilen Sie lange und komplexe Aufgaben in mehrere logische Abschnitte. Beginnen Sie einen neuen Chat für jeden Abschnitt und leiten Sie ihn mit einer kurzen Zusammenfassung des bisherigen Kontexts ein.
- Präzise Prompts: Wiederholen Sie wichtige Anweisungen oder den ursprünglichen Kontext explizit, wenn Sie bemerken, dass das Modell vom Kurs abkommt. Eine gezielte Erinnerung kann den Fokus des Modells neu ausrichten.
- Externe Kontextverwaltung: Lagern Sie wichtige Informationen (z. B. Regeln, Definitionen, Schlüsselentscheidungen) in ein externes Dokument aus. Fügen Sie diese bei Bedarf gezielt wieder in den Prompt ein, anstatt sich darauf zu verlassen, dass das Modell sie aus einem langen Verlauf extrahiert.
Diese Ansätze helfen, die Grenzen des Aufmerksamkeitsmechanismus im Alltag zu umgehen.
Zusammenfassung und Fazit
Die Literaturrecherche bestätigt meine Erkenntnisse [1] eindrücklich: Phänomene wie „Drift“, „fehlende Persistenz“ und „Stabilitätsverlust“ sind keine zufälligen Fehler, sondern systematische Effekte, die in der Forschung gut dokumentiert sind. Ihre gemeinsame Ursache liegt in einem fundamentalen Mechanismus der Transformer-Architektur: dem Aufmerksamkeitsabfall (Attention Decay).
Diese Erkenntnis ist entscheidend: Das Problem betrifft in erster Linie die Zuverlässigkeit und nicht die allgemeine Intelligenz des Modells. Ein LLM verliert nicht seine Fähigkeit zu schlussfolgern, aber es verliert den roten Faden. Die Analyse von Yunguo Y. fasst die Konsequenz prägnant zusammen: „Wenn LLMs falsch abbiegen, verlaufen sie sich – und finden nicht mehr zurück.“
Die größte Herausforderung bei langen Interaktionen ist daher nicht, die Modelle noch „schlauer“ zu machen, sondern ihre Verlässlichkeit zu gewährleisten und ihnen die Fähigkeit zur Selbstkorrektur zu geben. Das Verständnis des Aufmerksamkeitsabfalls ist der erste Schritt, um genau das zu erreichen.