Tokenisierung im Large Language Model (LLM)
Einzelne Wörter
Satzeichen
Leerzeichen
Teile von Wörtern
Token werden hier angezeigt…
Wie funktioniert Tokenisierung?
Bei der Tokenisierung im Large Language Model (LLM)
wird ein Text in kleinere, handhabbare Einheiten, den sogenannten Token, zerlegt.
Auch ChatGPT arbeitet nach diesen Prinzipieren.
Diese können sein:
- Vollständige Wörter (z.B. „Hallo“)
- Teile von Wörtern (z.B. „funktionier“ + „t“)
- Satzeichen und Symbole
- Sogar Leerzeichen können eigene Tokens sein
Die Tokenisierung hängt vom spezifischen „Tokenizer“ des Modells ab. Dieser Beispiel-Tokenizer ist vereinfacht.