Teil 1: Von Wörtern zu Token – Tokenizing in LLMs

Das Konzept des Tokenizing stellt den ersten und entscheidenden Schritt dar, wenn ein Large Language Model (LLM) mit Text interagiert. Da Computer grundsätzlich nur Zahlen verstehen, muss die menschliche Sprache in eine Form gebracht werden, die mathematisch verarbeitet werden kann.

Was ist Tokenizing?

Tokenizing ist der Prozess, bei dem ein fortlaufender Text in kleinere Einheiten unterteilt wird. Diese Einheiten nennt man Tokens. Ein Token kann ein ganzes Wort, ein Teil eines Wortes (Subword) oder sogar nur ein einzelnes Satzzeichen sein (vgl. Kudo & Richardson[1]).

Man kann sich das wie das Zerlegen eines Satzes in molekulare Bausteine vorstellen. Erst durch diese Zerlegung erhält das Modell eine überschaubare Liste von Elementen, mit denen es arbeiten kann.

Was genau macht das Tokenizing in einem LLM?

In der Praxis fungiert der Tokenizer als eine Art „Übersetzer“ am Eingang des Modells:

  1. Segmentierung: Der Text wird anhand eines festen Regelwerks in Stücke geschnitten. Moderne Modelle zerlegen Wörter oft in kleinere Bestandteile (Subword-Units), um effizienter zu sein (vgl. Sennrich et al.[2]).
  2. Zuweisung von IDs: Jeder Baustein in diesem System besitzt eine eindeutige Nummer. Nachdem der Text zerlegt wurde, wird jedem Token seine entsprechende Identifikationsnummer aus einem riesigen „Wörterbuch“ (dem Vokabular) zugewiesen (vgl. Kudo & Richardson[1]).

Ein einfaches Beispiel aus dem LLM Simulator zeigt das Szenario Basic · Tokenisierung — Subwords statt ganzer Wörter:

Der Prompt „Was ist eine Hundeleine?“ wird in diesem Beispiel in fünf Token zerlegt_:

  • Eingabe: „Was ist eine Hundeleine?
  • Tokens: [Was], [ ist], [ eine], [ Hund], [eleine], [?]
  • Nummern-Sequenz: [1101, 1102, 1103, 1104, 1105, 1106]

Das LLM rechnet ab diesem Punkt nur noch mit der Sequenz [1101, 1102, 1103, 1104, 1105, 1106].

Warum ist das wichtig?

Das Tokenizing ist aus mehreren Gründen das Fundament für die Funktionsweise von Sprachmodellen:

  • Umgang mit unbekannten Wörtern: Da die Sprache ständig wächst, kann ein Modell niemals alle Wörter der Welt kennen. Durch das Zerlegen in Teilwörter kann das Modell jedoch auch völlig neue oder seltene Wörter verstehen, solange es deren Bestandteile kennt (vgl. Sennrich et al.[2]). Ein Fachbegriff wird so einfach aus bekannten Silben zusammengesetzt.
  • Vokabular-Management: Würde man für jedes existierende Wort ein eigenes Token verwenden, wäre das System viel zu groß und langsam. Die Nutzung von Teilwörtern ermöglicht ein kompaktes und dennoch extrem leistungsfähiges Vokabular (vgl. Kudo & Richardson[1]).
  • Strukturvorgabe: Die Art und Weise, wie ein Text in Tokens zerlegt wird, bestimmt maßgeblich, wie gut das Modell später Zusammenhänge erkennt. Eine intelligente Zerlegung hilft dem Modell dabei, die Bedeutung eines Satzes schneller und präziser zu erfassen (vgl. Vaswani et al.[3]).

Zusammenfassend lässt sich sagen: Ohne Tokenizing gäbe es keine Brücke zwischen unseren geschriebenen Worten und der digitalen Rechenwelt des Modells. Es ist das Ordnungssystem, das Sprache für die KI erst lesbar macht.

Mit dem Tokenizing ist die Vorbereitung des Textes abgeschlossen: Aus Worten wurden IDs (vgl. Kudo & Richardson[1]). Damit das Modell aber versteht, warum ein ‘Hund’ näher an einer ‘Katze’ liegt als an einem ‘Auto’, muss ein weiterer Schritt folgen. Im nächsten Beitrag betrachten wir die Vektorisierung (Embeddings) und wie diese den Grundstein für die Intelligenz der LLMs legt.


Weblinks

References

  1. Taku Kudo and John Richardson (2018): SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. 2018.
  2. Rico Sennrich and Barry Haddow and Alexandra Birch (2016): Neural Machine Translation of Rare Words with Subword Units. 2016.
  3. Ashish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N. Gomez and Lukasz Kaiser and Illia Polosukhin (2023): Attention Is All You Need. 2023.
Scroll to Top