Tokenisierung

LLM Tokenisierung erklärt

Tokenisierung im Large Language Model (LLM)

Einzelne Wörter
Satzeichen
Leerzeichen
Teile von Wörtern
Token werden hier angezeigt…



Wie funktioniert Tokenisierung?

Bei der Tokenisierung im Large Language Model (LLM)
wird ein Text in kleinere, handhabbare Einheiten, den sogenannten Token, zerlegt.
Auch ChatGPT arbeitet nach diesen Prinzipieren.
Diese können sein:

  • Vollständige Wörter (z.B. „Hallo“)
  • Teile von Wörtern (z.B. „funktionier“ + „t“)
  • Satzeichen und Symbole
  • Sogar Leerzeichen können eigene Tokens sein

Die Tokenisierung hängt vom spezifischen „Tokenizer“ des Modells ab. Dieser Beispiel-Tokenizer ist vereinfacht.