Kontextfenster

Abkürzungen / Synonyme: Context Window

Kurzdefinition

Die maximale Anzahl an Token, die ein Sprachmodell in einer einzigen Anfrage (Input + Output) verarbeiten kann.

Ausführliche Erklärung

Das Kontextfenster begrenzt, wie viel Text ein Modell gleichzeitig «im Blick» hat. Es umfasst sowohl den Input (System-Prompt, Frage, eingefügte Dokumente) als auch den generierten Output. Ist das Fenster überschritten, werden ältere Tokens abgeschnitten, wodurch das Modell Informationen «vergisst». In RAG-Systemen ist das Kontextfenster die zentrale Planungsgrösse: Es entscheidet, wie viele Chunks gleichzeitig als Kontext übergeben werden können. Grössere Fenster (z. B. 128k Tokens) erlauben mehr Kontext, erhöhen aber Kosten und Latenz und leiden teils unter dem «Lost in the Middle»-Effekt.

Beispiel

Bei einem Modell mit 8'000 Tokens Kontextfenster und einem System-Prompt von 1'000 Tokens bleiben rund 7'000 Tokens für Dokumente und Antwort – genug für etwa 15–20 mittlere Chunks plus Antwort.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Kontextfenster mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Kontextfenster aufrufen