Token

Kurzdefinition

Die kleinste Texteinheit, die ein Sprachmodell verarbeitet (kann ein Wort, eine Silbe oder ein einzelnes Zeichen sein).

Ausführliche Erklärung

Ein Token ist die Recheneinheit eines Sprachmodells: Vor der Verarbeitung zerlegt ein Tokenizer den Text in Tokens, die das Modell anschliessend als Zahlen-IDs verarbeitet. Im Deutschen entspricht ein Token grob 3–4 Zeichen; häufige Wörter werden zu einem Token, seltene oder zusammengesetzte Wörter in mehrere Subwort-Tokens zerlegt. Tokens sind relevant, weil Kontextfenster, Kosten (Preis pro 1000 Tokens) und Antwortlänge alle in Tokens gemessen werden. Wer die Tokenanzahl seiner Prompts kennt, kann Kosten und Kontextgrenzen gezielt steuern.

Beispiel

Das Wort «Donaudampfschifffahrt» wird je nach Tokenizer in mehrere Subwort-Tokens wie «Donau», «dampf», «schiff», «fahrt» zerlegt, während «Haus» typischerweise ein einzelnes Token bildet.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Token mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Token aufrufen