Wie LLMs wirklich arbeiten: Modelltheoretische Herleitung einer LLM-Verarbeitungspipeline

Wer heute mit Large Language Models (LLMs) interagiert, erlebt oft eine beeindruckende Eloquenz, die fast menschlich wirkt. Doch hinter der Fassade der „künstlichen Intelligenz“ verbirgt sich ein streng deterministischer Prozess der Informationsverarbeitung. In der Forschungsliteratur werden die verschiedenen Aspekte dieser Architektur oft getrennt voneinander behandelt: Arbeiten zur Tokenisierung (z. B. Sennrich et al.[1]) stehen neben mathematischen Abhandlungen über Aufmerksamkeitsmechanismen (Vaswani et al.[2]).

Dieser Artikel führt diese Perspektiven zusammen. Wir betrachten den Weg einer Eingabe durch das Modell nicht als magischen Moment, sondern als eine konzeptionelle Pipeline, die dem klassischen EVA-Prinzip (Eingabe, Verarbeitung, Ausgabe) folgt. Das Ziel ist es, die Arbeitsweise moderner LLMs als eine Abfolge mathematischer Transformationen zu verstehen, die am Ende aus reiner Statistik Sprachverständnis simulieren.

Die Bausteine: Funktionale Konsenspunkte der Forschung

Trotz einer Vielzahl an Modellvarianten – von reinen Verständnis-Modellen (Encoder-only) bis hin zu generativen Modellen (Decoder-only) – lassen sich in der einschlägigen Literatur (u. a. Radford et al.[3] und Kumar[4]) fundamentale Prinzipien identifizieren, die für fast alle modernen Architekturen gelten:

  • Diskretisierung: Sprache wird für das Modell in handhabbare, digitale Bausteine (Tokens) zerlegt.
  • Vektorisierung: Diese Symbole werden in einen hochdimensionalen Zahlenraum (Vektoren) übersetzt, um sie berechenbar zu machen.
  • Kontextualisierung: Die Bedeutung eines Wortes wird mathematisch aus seiner Beziehung zu allen anderen Wörtern in einer Sequenz abgeleitet.
  • Probabilistische Schätzung: Das Endergebnis ist immer eine Wahrscheinlichkeitsverteilung über einen festen Vorrat an Zeichenketten.

Die Verarbeitungspipeline entlang des EVA-Prinzips

Eingabe (E): Vom Text zum Zahlensignal

Bevor ein Modell „denken“ kann, muss Text in ein Format gebracht werden, das neuronale Netze verarbeiten können.

  • Tokenisierung: Da ein Modell nicht unendlich viele Wörter speichern kann, wird Text in kleinere Einheiten zerlegt. Moderne Verfahren wie SentencePiece (Kudo & Richardson[5]) zerlegen seltene Wörter in Unterworte. Das Ergebnis ist eine Sequenz von Token-Indizes, die auf das vordefinierte Vokabular des LLMs verweisen.

Verarbeitung (V): Kontextualisierung und Wissensabgleich

Dies ist das Herzstück des Modells, in dem die eigentliche „Intelligenz“ verortet ist.

  1. Embeddings & Position: Jeder Token-Index wird in einen dichten Vektor (Embedding) umgewandelt. Da das Modell alle Wörter der Eingabe gleichzeitig betrachtet, wird zusätzlich eine Positionsinformation addiert. Ohne dieses Positional Encoding könnte das Modell nicht zwischen „Der Hund beißt den Mann“ und „Der Mann beißt den Hund“ unterscheiden.
  2. Attention-Mechanismus: Hier findet die Kontextualisierung statt. Das Modell prüft für jedes Wort, welche anderen Wörter im Satz wichtig sind. Dies geschieht über den Abgleich funktionaler Rollen – sogenannter Query- (Anfrage), Key- (Schlüssel) und Value-Vektoren (Wert). Ein Wort (Query) sucht nach relevanten Informationen bei anderen Wörtern (Key) und nimmt deren Informationsgehalt (Value) auf. So „versteht“ das Modell beispielsweise, worauf sich ein Pronomen wie „er“ im Satz bezieht.
  3. Multi-Layer Perceptron (MLP): Nach der relationalen Betrachtung folgt die individuelle Verarbeitung. In sogenannten Feed-Forward-Netzwerken wird jedes Token für sich tiefgreifend transformiert. Man kann sich diese Schichten (Geva et al.[6]) als statische Wissensspeicher vorstellen: Hier gleicht das Modell die im Kontext gewonnenen Informationen mit den während des Trainings gelernten Muster („Weltwissen“) ab.
  4. Logit-Extraktion: Am Ende der Verarbeitung werden die abstrakten Vektoren wieder auf die Größe des Vokabulars projiziert. Das Ergebnis sind die sogenannten Logits – das numerische Rohformat der Antwort. Sie geben für jedes Wort im Vokabular an, wie gut es als nächstes Element passt.

Ausgabe (A): Zurück in die menschliche Sprache

Die letzte Phase übersetzt die interne Mathematik zurück in Kommunikation.

  • Decoding: Aus den Logits wird eine Auswahl getroffen. Bei generativen Aufgaben (Texterzeugung) steuern Strategien wie Nucleus Sampling, wie kreativ oder konservativ das Modell das nächste Wort wählt. Bei analytischen Aufgaben wird das Ergebnis oft direkt einem vordefinierten Klassen-Label (z. B. der Kategorie „Spam“) zugeordnet. Dies kann über eine spezielle Schicht geschehen, einen sogenannten Klassifikations-Head, der die Vektoren direkt auf feste Kategorien abbildet.
  • Detokenisierung: Die gewählten Zahlen-IDs werden schließlich wieder in lesbare Zeichenketten umgewandelt.

Fazit: Die Pipeline als universelles Erklärungsmodell

Die hier hergeleitete Kette zeigt die Arbeitsweise moderner LLMs in ihrer reinsten Form:

Eingabe → Tokenisierung → Embeddings → Attention → MLP → Logits → Decoding → Ausgabe

Diese Struktur reduziert die enorme Komplexität der Modelle auf eine logische Abfolge, ohne dabei die inhaltliche Korrektheit zu verletzen. Sie verdeutlicht, dass LLMs keine „Denkmaschinen“ im menschlichen Sinne sind, sondern hochkomplexe statistische Systeme, die Sprache in Zahlen übersetzen, diese in einem virtuellen Raum zueinander in Beziehung setzen und am Ende eine Auswahl aus einem festen Baukasten treffen.

Man kann es sich wie ein riesiges, digitales Netzwerk von Mustern vorstellen, das bei jeder Eingabe die wahrscheinlichsten Verknüpfungen abruft. So entsteht aus reiner Mathematik der Eindruck eines tiefen Sprachverständnisses, da das Modell lernt, den Kontext fast so nuanciert abzuwägen wie ein menschlicher Leser. Das Verständnis dieser Pipeline ist die Voraussetzung dafür, die Möglichkeiten und Grenzen heutiger KI-Systeme realistisch einordnen zu können.


References

  1. Rico Sennrich and Barry Haddow and Alexandra Birch (2016): Neural Machine Translation of Rare Words with Subword Units. 2016.
  2. Ashish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N. Gomez and Lukasz Kaiser and Illia Polosukhin (2023): Attention Is All You Need. 2023.
  3. Alec Radford and Karthik Narasimhan and Tim Salimans and Ilya Sutskever (2018): Improving Language Understanding by Generative Pre-Training. In: 2018.
  4. Pranjal Kumar (2024): Large language models (LLMs): survey, technical frameworks, and future challenges. In: Artificial Intelligence Review, vol. 57, no. 260, 2024.
  5. Taku Kudo and John Richardson (2018): SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. 2018.
  6. Mor Geva and Roei Schuster and Jonathan Berant and Omer Levy (2021): Transformer Feed-Forward Layers Are Key-Value Memories. 2021.
Scroll to Top