Künstliche Intelligenz

Token bei KI: Was Tokenizer, Kosten und Kontextfenster verbindet

Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells. Bevor ein Large Language Model (LLM) Text verarbeiten kann, zerlegt ein sogenannter Tokenizer die Eingabe in Token und übersetzt sie in numerische IDs. Token sind damit das Bindeglied zwischen drei zentralen Grössen jeder KI-Anwendung: dem Kontextfenster, den Kosten und der Antwortlänge. Wer Token versteht, kann KI-Systeme präziser, günstiger und zuverlässiger betreiben.

Was ist ein Token genau?

Ein Token ist nicht zwingend ein ganzes Wort. Moderne Modelle nutzen sogenannte Subword-Tokenizer (z. B. Byte-Pair-Encoding oder SentencePiece), die häufige Zeichenfolgen zu einem Token zusammenfassen und seltene Wörter in mehrere Teile zerlegen. Das hat einen praktischen Grund: So bleibt das Vokabular kompakt (typischerweise 30 000 bis 100 000 Token), während trotzdem jedes beliebige Wort – auch Tippfehler oder Fachbegriffe – darstellbar ist.

Im Deutschen entspricht ein Token grob 3 bis 4 Zeichen. Zusammengesetzte Wörter, die im Deutschen besonders häufig sind, werden dabei oft in mehrere Subword-Token zerlegt.

WortUngefähre TokenisierungAnzahl Token
HausHaus1
BestellungBestell + ung2
DonaudampfschifffahrtDonau + dampf + schiff + fahrt4
🙂 (Emoji)mehrere Byte-Token2–3

Auch Leerzeichen, Satzzeichen und Zeilenumbrüche zählen als Token bzw. werden Token zugeordnet. Deshalb erzeugt formatierter Text (z. B. JSON oder Tabellen) mehr Token als reiner Fliesstext gleicher Länge.

Warum Token wichtig sind

Token sind nicht nur ein technisches Detail, sondern bestimmen drei geschäftsrelevante Faktoren.

1. Kosten

Praktisch alle LLM-Anbieter rechnen pro 1000 Token ab, getrennt nach Input (Ihr Prompt plus Kontext) und Output (die generierte Antwort). Output-Token sind oft teurer als Input-Token. Ein konkretes Rechenbeispiel:

  • System-Prompt: 400 Token
  • Eingefügte RAG-Dokumente: 3000 Token
  • Benutzerfrage: 50 Token
  • Antwort des Modells: 600 Token

Daraus ergeben sich 3450 Input-Token und 600 Output-Token pro Anfrage. Bei 10 000 Anfragen pro Monat summiert sich das schnell – weshalb effizientes Chunking und ein knapper System-Prompt direkt die Betriebskosten senken.

2. Kontextfenster

Das Kontextfenster eines Modells ist die maximale Anzahl an Token, die Input und Output zusammen umfassen dürfen. Ist es überschritten, «vergisst» das Modell die ältesten Inhalte oder die Anfrage scheitert. Dieser Zusammenhang ist besonders in RAG-Systemen entscheidend, weil dort viele Dokument-Chunks gleichzeitig als Kontext übergeben werden.

3. Latenz

Die Generierung erfolgt Token für Token. Mehr Output-Token bedeuten daher eine längere Antwortzeit. Wer schnelle, knappe Antworten braucht, sollte das Modell per System-Prompt zu kompakten Ausgaben anweisen und die maximale Antwortlänge (max_tokens) begrenzen.

Token und Embeddings

Token sind auch die Grundlage für Embeddings. Bevor ein Text in einen Vektor übersetzt wird, wird er tokenisiert; das Embedding-Modell verarbeitet dann diese Token-Sequenz. Auch Embedding-Modelle haben ein maximales Token-Limit pro Eingabe – ein weiterer Grund, warum Dokumente vor der Vektorisierung in passende Chunks zerlegt werden müssen.

Typische Fehler im Umgang mit Token

  • Zeichen mit Token verwechseln: 1000 Zeichen sind nicht 1000 Token. Im Deutschen ergeben 1000 Zeichen grob 250–330 Token.
  • Formatierung unterschätzen: Tabellen, JSON und Code erzeugen überproportional viele Token. Für sehr grosse strukturierte Daten lohnt sich oft eine kompaktere Repräsentation.
  • Output-Token vergessen: Bei der Kapazitätsplanung wird häufig nur der Input gezählt. Die Antwort belegt aber ebenfalls Platz im Kontextfenster.
  • Sprache ignorieren: Englischer Text ist token-effizienter als deutscher, weil viele Tokenizer primär auf englischen Daten trainiert wurden. Deutsche Komposita kosten zusätzliche Token.

Vorher/Nachher: Token sparen

Ein überladener Prompt lässt sich oft halbieren, ohne Qualität zu verlieren:

  • Vorher (ineffizient): «Könntest du bitte, wenn es dir nichts ausmacht, eine möglichst ausführliche und detaillierte Zusammenfassung des folgenden Textes erstellen, die alle wichtigen Punkte enthält?» → ca. 40 Token nur für die Anweisung.
  • Nachher (effizient): «Fasse den folgenden Text in 3 Stichpunkten zusammen.» → ca. 12 Token, klarere Steuerung der Ausgabelänge.

Token im praktischen Workflow zählen

Für die Entwicklung empfiehlt es sich, die Tokenanzahl früh zu messen, statt sie zu schätzen. Viele SDKs liefern die Tokenzahl direkt in der API-Antwort mit (usage). Ergänzend lohnt sich der Blick auf Prompt Engineering, um mit weniger Token bessere Ergebnisse zu erzielen, sowie auf die RAG-Architektur, um den Kontext gezielt zu dimensionieren.

[!TIP] Sie möchten Datenformate vor dem Einbetten in einen Prompt verkleinern oder validieren? Mit dem JSON-Formatter auf balou.tools prüfen und komprimieren Sie strukturierte Daten, bevor Sie sie token-sparend an ein LLM übergeben.

Fazit

Token sind die Recheneinheit, Währung und Kapazitätsgrenze von Sprachmodellen in einem. Sie bestimmen, wie viel Kontext in eine Anfrage passt, was diese kostet und wie schnell die Antwort kommt. Ein bewusster Umgang mit Token – durch knappe Prompts, effizientes Chunking und das Messen statt Schätzen der Tokenzahl – ist daher eine der wirksamsten Stellschrauben für leistungsfähige und wirtschaftliche KI-Anwendungen.

Häufig gestellte Fragen (FAQ)

Wie viele Token hat ein deutsches Wort durchschnittlich?

Als Faustregel entspricht ein Token im Deutschen etwa 3–4 Zeichen. Kurze, häufige Wörter wie «und» oder «Haus» sind oft ein einzelnes Token, während lange oder zusammengesetzte Wörter in mehrere Subwort-Token zerlegt werden. Ein Text mit 1000 Wörtern hat grob 1300–1600 Token.

Warum sind Token für die Kosten von KI-Anwendungen wichtig?

LLM-Anbieter rechnen pro 1000 Token ab – getrennt nach Input- und Output-Token. Wer die Tokenanzahl seiner Prompts und Antworten kennt, kann die Kosten exakt kalkulieren und durch kürzere Prompts, weniger Kontext oder kompaktere Ausgaben senken.

Was passiert, wenn ein Prompt das Kontextfenster überschreitet?

Überschreitet die Summe aus Input- und Output-Token das Kontextfenster des Modells, werden ältere Token abgeschnitten oder die Anfrage wird abgelehnt. In RAG-Systemen muss die Anzahl der mitgelieferten Chunks daher so geplant werden, dass System-Prompt, Kontext und Antwort gemeinsam ins Fenster passen.