Token
Kurzdefinition
Die kleinste Texteinheit, die ein Sprachmodell verarbeitet (kann ein Wort, eine Silbe oder ein einzelnes Zeichen sein).
Ausführliche Erklärung
Ein Token ist die Recheneinheit eines Sprachmodells: Vor der Verarbeitung zerlegt ein Tokenizer den Text in Tokens, die das Modell anschliessend als Zahlen-IDs verarbeitet. Im Deutschen entspricht ein Token grob 3–4 Zeichen; häufige Wörter werden zu einem Token, seltene oder zusammengesetzte Wörter in mehrere Subwort-Tokens zerlegt. Tokens sind relevant, weil Kontextfenster, Kosten (Preis pro 1000 Tokens) und Antwortlänge alle in Tokens gemessen werden. Wer die Tokenanzahl seiner Prompts kennt, kann Kosten und Kontextgrenzen gezielt steuern.
Beispiel
Das Wort «Donaudampfschifffahrt» wird je nach Tokenizer in mehrere Subwort-Tokens wie «Donau», «dampf», «schiff», «fahrt» zerlegt, während «Haus» typischerweise ein einzelnes Token bildet.
Im ausführlichen Fachartikel erklären wir Token mit Architektur, Praxisbeispielen und Best Practices im Detail: