Kontextfenster bei KI: Wie viel Text ein Sprachmodell verarbeitet
Das Kontextfenster (engl. context window) ist die maximale Menge an Token, die ein Large Language Model (LLM) in einer einzigen Anfrage verarbeiten kann. Es ist die zentrale Kapazitätsgrenze jeder KI-Anwendung: Alles, was das Modell für seine Antwort berücksichtigen soll – Anweisungen, Frage, eingefügte Dokumente und die Antwort selbst – muss gemeinsam in dieses Fenster passen. Wer das Kontextfenster versteht, kann KI-Systeme zuverlässiger dimensionieren und teure Fehler vermeiden.
Was umfasst das Kontextfenster?
Das Kontextfenster begrenzt nicht nur die Eingabe, sondern Input und Output zusammen. Eine typische Anfrage setzt sich aus mehreren Bausteinen zusammen:
| Baustein | Beispiel | Typische Grösse |
|---|---|---|
| System-Prompt | Rolle, Regeln, Tonalität | 200–800 Token |
| Eingefügter Kontext | RAG-Dokumente, Historie | 1.000–10.000 Token |
| Benutzerfrage | Die eigentliche Anfrage | 20–200 Token |
| Antwort (Output) | Generierte Ausgabe | 200–2.000 Token |
Die Summe dieser Bausteine darf das Limit des Modells nicht überschreiten. Wird das Fenster überschritten, werden entweder die ältesten Inhalte abgeschnitten oder die Anfrage scheitert mit einem Fehler.
Warum das Kontextfenster wichtig ist
1. Es begrenzt das «Gedächtnis» des Modells
Ein LLM hat kein dauerhaftes Gedächtnis – es kennt nur, was im aktuellen Kontextfenster steht. In einem längeren Chat «vergisst» das Modell frühere Nachrichten, sobald sie aus dem Fenster herausfallen. Anwendungen müssen deshalb relevante Informationen aktiv im Kontext halten oder per Retrieval erneut einspielen.
2. Es ist die Planungsgrösse für RAG
In RAG-Systemen entscheidet das Kontextfenster, wie viele Dokument-Chunks gleichzeitig als Kontext übergeben werden können. Hier zeigt sich der direkte Zusammenhang zum Chunking: Kleinere Chunks erlauben mehr Treffer im Fenster, grössere Chunks liefern mehr Zusammenhang pro Treffer. Eine typische Rechnung:
- Kontextfenster: 8.000 Token
- System-Prompt: 1.000 Token
- Reserve für Antwort: 1.000 Token
- Verfügbar für Dokumente: 6.000 Token → ca. 12–15 Chunks à 400–500 Token
3. Es beeinflusst Kosten und Latenz
Mehr Kontext bedeutet mehr Input-Token – und damit höhere Kosten und längere Antwortzeiten. Ein grösseres Kontextfenster ist also kein Selbstzweck: Wer unnötig viel Kontext einfügt, zahlt mehr und wartet länger, ohne dass die Antwortqualität automatisch steigt.
Grosses Fenster ist nicht immer besser
Moderne Modelle werben mit sehr grossen Kontextfenstern von 128.000 Token oder mehr. In der Praxis gibt es aber zwei Einschränkungen:
- Lost in the Middle: Modelle beachten Informationen am Anfang und Ende des Kontexts stärker als in der Mitte. Sehr lange Kontexte können dazu führen, dass wichtige Details in der Mitte untergehen.
- Kosten skalieren mit: Ein voll ausgenutztes 128k-Fenster ist deutlich teurer als ein gezielt gefülltes 8k-Fenster.
Gezieltes Retrieval mit gutem Reranking schlägt deshalb oft das blosse Einfügen möglichst vieler Dokumente. Die Kunst besteht darin, die wenigen wirklich relevanten Chunks bereitzustellen, statt das Fenster maximal zu füllen.
Vorher/Nachher: Kontext gezielt füllen
Ein Support-Bot fügte ursprünglich die 30 ähnlichsten Chunks in den Kontext ein und überschritt regelmässig das Budget. Nach der Optimierung:
| Messwert | Vorher | Nachher |
|---|---|---|
| Eingefügte Chunks | 30 | 6 (nach Reranking) |
| Input-Token | ~12.000 | ~3.200 |
| Antwortqualität | schwankend | konstant hoch |
| Kosten pro Anfrage | hoch | ~70 % günstiger |
Die Lehre: Nicht «so viel Kontext wie möglich», sondern «so viel Kontext wie nötig».
Typische Fehler im Umgang mit dem Kontextfenster
- Antwort-Reserve vergessen: Wird das Fenster mit Input gefüllt, bleibt kein Platz für eine vollständige Antwort.
- Gesamte Chat-Historie mitschicken: Bei langen Dialogen sollte die Historie zusammengefasst oder gekürzt werden.
- Zu grosse Chunks: Wenige riesige Chunks verdrängen relevante Treffer und verwässern die Antwort.
- Token mit Zeichen verwechseln: Die Budgetierung muss in Token erfolgen, nicht in Zeichen oder Wörtern.
Praktischer Workflow
Messen Sie früh, wie viele Token Ihre Prompts tatsächlich belegen, statt zu schätzen. Reservieren Sie immer einen festen Anteil für die Antwort und steuern Sie die Ausgabelänge über Parameter wie max_tokens. Wer den Kontext bewusst kuratiert, profitiert zusätzlich von gutem Prompt Engineering und einer durchdachten RAG-Architektur.
[!TIP] Sie möchten strukturierte Daten token-sparend in einen Prompt einbetten? Mit dem JSON-Formatter auf balou.tools komprimieren und prüfen Sie JSON, bevor Sie es in das Kontextfenster eines Modells laden.
Fazit
Das Kontextfenster ist die harte Kapazitätsgrenze eines Sprachmodells: Es bestimmt, wie viel Information gleichzeitig berücksichtigt werden kann, was eine Anfrage kostet und wie schnell sie beantwortet wird. Ein bewusster, gezielter Umgang – mit passender Chunk-Grösse, reservierter Antwort-Kapazität und sauberem Retrieval – ist wirksamer als das blosse Vergrössern des Fensters.
Häufig gestellte Fragen (FAQ)
Wie gross ist ein typisches Kontextfenster?
Die Grössen reichen von 4.000 bis 8.000 Token bei älteren Modellen bis zu 128.000 oder über einer Million Token bei aktuellen Modellen. Ein grösseres Fenster erlaubt mehr Kontext, erhöht aber Kosten und Latenz.
Zählt die Antwort des Modells zum Kontextfenster?
Ja. Das Kontextfenster umfasst Input (System-Prompt, Frage, eingefügte Dokumente) und Output (die generierte Antwort) gemeinsam. Bei der Kapazitätsplanung müssen Sie also Platz für die Antwort reservieren.
Was ist der Lost-in-the-Middle-Effekt?
Modelle gewichten Informationen am Anfang und Ende des Kontexts stärker als in der Mitte. Bei sehr grossen Kontextfenstern kann relevante Information in der Mitte daher untergehen – ein Grund, weshalb gezieltes Retrieval oft besser ist als das blosse Einfügen sehr vieler Dokumente.