Teil 2: Vom Token zum Vektor: Embeddings und Semantische Nähe

In der modernen Sprachverarbeitung stehen wir vor der Herausforderung, dass Computer nur mit Zahlen rechnen können, während menschliche Sprache aus komplexen Symbolen besteht. Der erste Schritt ist die Tokenisierung, bei der Text in kleine Einheiten (Tokens) zerlegt wird. Um diesen Tokens jedoch eine Bedeutung zu verleihen, nutzt man Embeddings.

Ein Embedding ist eine Methode, bei der jeder Token in einen Vektor – eine Liste von vielen Zahlen – umgewandelt wird. Man kann sich das wie eine Koordinate in einem riesigen, mehrdimensionalen Raum vorstellen. Das Entscheidende hierbei ist die Semantische Nähe: In diesem Raum werden die Zahlenwerte so gelernt, dass Wörter mit ähnlicher Bedeutung (wie „Mann“ und „Mensch“) geometrisch nah beieinander liegen, während völlig unterschiedliche Begriffe (wie „Mensch“ und „Radio“) weiter voneinander entfernt sind. Dies ermöglicht es dem Modell, syntaktische und semantische Ähnlichkeiten allein durch mathematische Abstände zu „verstehen“ (vgl. Mikolov et al.[1]).

Die Anatomie eines Vektors: Verteilte Repräsentation

Die einzelnen Zahlen innerhalb eines solchen Embedding-Vektors (die Elemente) fungieren als latente Dimensionen. Theoretisch könnte eine Zahl für „Männlichkeit“, eine andere für „Belebtheit“ oder „Größe“ stehen. In der Praxis der LLMs, wie sie in den Arbeiten von Radford et al.[2] (OpenAI) genutzt werden, sind diese Informationen jedoch verteilt. Das bedeutet: Ein einzelner Wert im Vektor ist für uns Menschen meist nicht interpretierbar. Erst das Zusammenspiel aller hunderter oder tausender Zahlen ergibt das präzise „Konzept“ eines Wortes.

Die Ordnung im Chaos: Positional Encoding

Da moderne Modelle wie der Transformer (vgl. Vaswani et al.[3]) alle Wörter eines Satzes nicht mehr nacheinander sondern gleichzeitig verarbeiten, fehlt ihnen zunächst das Wissen über die Reihenfolge. Ohne zusätzliche Hilfe wüsste das Modell nicht, ob der Hund den Mann beißt oder umgekehrt.

Hier hilft das Positional Encoding. Es handelt sich um ein mathematisches Muster, das auf die Embedding-Vektoren addiert wird. Es fungiert wie eine „Positionsmarke“ oder ein Zeitstempel. Dadurch behält jedes Wort sein ursprüngliches Embedding (seine Bedeutung), erhält aber zusätzlich eine eindeutige Information darüber, an welcher Stelle im Satz es sich befindet.

Fazit

Zusammenfassend lässt sich sagen:

  1. Embeddings verwandeln Tokens in Zahlenlisten (Vektoren), um Bedeutung mathematisch greifbar zu machen.
  2. Die Semantische Nähe sorgt dafür, dass Verwandtschaftsgrade zwischen Begriffen durch räumliche Nähe im Vektorraum abgebildet werden.
  3. Die Elemente des Vektors repräsentieren feine, gelernte Merkmale, die in ihrer Gesamtheit die Definition eines Wortes bilden.
  4. Das Positional Encoding fügt diesen abstrakten Bedeutungen die notwendige Struktur hinzu, damit das Modell den Satzbau und die Reihenfolge versteht.

Diese Kombination erlaubt es einem LLM, Sprache nicht nur als statische Liste von Wörtern zu sehen, sondern als ein komplexes Geflecht aus Bedeutungen und Beziehungen.


References

  1. Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean (2013): Efficient Estimation of Word Representations in Vector Space. 2013.
  2. Alec Radford and Karthik Narasimhan and Tim Salimans and Ilya Sutskever (2018): Improving Language Understanding by Generative Pre-Training. In: 2018.
  3. Ashish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N. Gomez and Lukasz Kaiser and Illia Polosukhin (2023): Attention Is All You Need. 2023.
Scroll to Top