Künstliche Intelligenz

Kontextfenster bei KI: Wie viel Text ein Sprachmodell verarbeitet

Das Kontextfenster (engl. context window) ist die maximale Menge an Token, die ein Large Language Model (LLM) in einer einzigen Anfrage verarbeiten kann. Es ist die zentrale Kapazitätsgrenze jeder KI-Anwendung: Alles, was das Modell für seine Antwort berücksichtigen soll – Anweisungen, Frage, eingefügte Dokumente und die Antwort selbst – muss gemeinsam in dieses Fenster passen. Wer das Kontextfenster versteht, kann KI-Systeme zuverlässiger dimensionieren und teure Fehler vermeiden.

Was umfasst das Kontextfenster?

Das Kontextfenster begrenzt nicht nur die Eingabe, sondern Input und Output zusammen. Eine typische Anfrage setzt sich aus mehreren Bausteinen zusammen:

BausteinBeispielTypische Grösse
System-PromptRolle, Regeln, Tonalität200–800 Token
Eingefügter KontextRAG-Dokumente, Historie1.000–10.000 Token
BenutzerfrageDie eigentliche Anfrage20–200 Token
Antwort (Output)Generierte Ausgabe200–2.000 Token

Die Summe dieser Bausteine darf das Limit des Modells nicht überschreiten. Wird das Fenster überschritten, werden entweder die ältesten Inhalte abgeschnitten oder die Anfrage scheitert mit einem Fehler.

Warum das Kontextfenster wichtig ist

1. Es begrenzt das «Gedächtnis» des Modells

Ein LLM hat kein dauerhaftes Gedächtnis – es kennt nur, was im aktuellen Kontextfenster steht. In einem längeren Chat «vergisst» das Modell frühere Nachrichten, sobald sie aus dem Fenster herausfallen. Anwendungen müssen deshalb relevante Informationen aktiv im Kontext halten oder per Retrieval erneut einspielen.

2. Es ist die Planungsgrösse für RAG

In RAG-Systemen entscheidet das Kontextfenster, wie viele Dokument-Chunks gleichzeitig als Kontext übergeben werden können. Hier zeigt sich der direkte Zusammenhang zum Chunking: Kleinere Chunks erlauben mehr Treffer im Fenster, grössere Chunks liefern mehr Zusammenhang pro Treffer. Eine typische Rechnung:

  • Kontextfenster: 8.000 Token
  • System-Prompt: 1.000 Token
  • Reserve für Antwort: 1.000 Token
  • Verfügbar für Dokumente: 6.000 Token → ca. 12–15 Chunks à 400–500 Token

3. Es beeinflusst Kosten und Latenz

Mehr Kontext bedeutet mehr Input-Token – und damit höhere Kosten und längere Antwortzeiten. Ein grösseres Kontextfenster ist also kein Selbstzweck: Wer unnötig viel Kontext einfügt, zahlt mehr und wartet länger, ohne dass die Antwortqualität automatisch steigt.

Grosses Fenster ist nicht immer besser

Moderne Modelle werben mit sehr grossen Kontextfenstern von 128.000 Token oder mehr. In der Praxis gibt es aber zwei Einschränkungen:

  • Lost in the Middle: Modelle beachten Informationen am Anfang und Ende des Kontexts stärker als in der Mitte. Sehr lange Kontexte können dazu führen, dass wichtige Details in der Mitte untergehen.
  • Kosten skalieren mit: Ein voll ausgenutztes 128k-Fenster ist deutlich teurer als ein gezielt gefülltes 8k-Fenster.

Gezieltes Retrieval mit gutem Reranking schlägt deshalb oft das blosse Einfügen möglichst vieler Dokumente. Die Kunst besteht darin, die wenigen wirklich relevanten Chunks bereitzustellen, statt das Fenster maximal zu füllen.

Vorher/Nachher: Kontext gezielt füllen

Ein Support-Bot fügte ursprünglich die 30 ähnlichsten Chunks in den Kontext ein und überschritt regelmässig das Budget. Nach der Optimierung:

MesswertVorherNachher
Eingefügte Chunks306 (nach Reranking)
Input-Token~12.000~3.200
Antwortqualitätschwankendkonstant hoch
Kosten pro Anfragehoch~70 % günstiger

Die Lehre: Nicht «so viel Kontext wie möglich», sondern «so viel Kontext wie nötig».

Typische Fehler im Umgang mit dem Kontextfenster

  • Antwort-Reserve vergessen: Wird das Fenster mit Input gefüllt, bleibt kein Platz für eine vollständige Antwort.
  • Gesamte Chat-Historie mitschicken: Bei langen Dialogen sollte die Historie zusammengefasst oder gekürzt werden.
  • Zu grosse Chunks: Wenige riesige Chunks verdrängen relevante Treffer und verwässern die Antwort.
  • Token mit Zeichen verwechseln: Die Budgetierung muss in Token erfolgen, nicht in Zeichen oder Wörtern.

Praktischer Workflow

Messen Sie früh, wie viele Token Ihre Prompts tatsächlich belegen, statt zu schätzen. Reservieren Sie immer einen festen Anteil für die Antwort und steuern Sie die Ausgabelänge über Parameter wie max_tokens. Wer den Kontext bewusst kuratiert, profitiert zusätzlich von gutem Prompt Engineering und einer durchdachten RAG-Architektur.

[!TIP] Sie möchten strukturierte Daten token-sparend in einen Prompt einbetten? Mit dem JSON-Formatter auf balou.tools komprimieren und prüfen Sie JSON, bevor Sie es in das Kontextfenster eines Modells laden.

Fazit

Das Kontextfenster ist die harte Kapazitätsgrenze eines Sprachmodells: Es bestimmt, wie viel Information gleichzeitig berücksichtigt werden kann, was eine Anfrage kostet und wie schnell sie beantwortet wird. Ein bewusster, gezielter Umgang – mit passender Chunk-Grösse, reservierter Antwort-Kapazität und sauberem Retrieval – ist wirksamer als das blosse Vergrössern des Fensters.

Häufig gestellte Fragen (FAQ)

Wie gross ist ein typisches Kontextfenster?

Die Grössen reichen von 4.000 bis 8.000 Token bei älteren Modellen bis zu 128.000 oder über einer Million Token bei aktuellen Modellen. Ein grösseres Fenster erlaubt mehr Kontext, erhöht aber Kosten und Latenz.

Zählt die Antwort des Modells zum Kontextfenster?

Ja. Das Kontextfenster umfasst Input (System-Prompt, Frage, eingefügte Dokumente) und Output (die generierte Antwort) gemeinsam. Bei der Kapazitätsplanung müssen Sie also Platz für die Antwort reservieren.

Was ist der Lost-in-the-Middle-Effekt?

Modelle gewichten Informationen am Anfang und Ende des Kontexts stärker als in der Mitte. Bei sehr grossen Kontextfenstern kann relevante Information in der Mitte daher untergehen – ein Grund, weshalb gezieltes Retrieval oft besser ist als das blosse Einfügen sehr vieler Dokumente.