Kontextfenster
Abkürzungen / Synonyme: Context Window
Kurzdefinition
Die maximale Anzahl an Token, die ein Sprachmodell in einer einzigen Anfrage (Input + Output) verarbeiten kann.
Ausführliche Erklärung
Das Kontextfenster begrenzt, wie viel Text ein Modell gleichzeitig «im Blick» hat. Es umfasst sowohl den Input (System-Prompt, Frage, eingefügte Dokumente) als auch den generierten Output. Ist das Fenster überschritten, werden ältere Tokens abgeschnitten, wodurch das Modell Informationen «vergisst». In RAG-Systemen ist das Kontextfenster die zentrale Planungsgrösse: Es entscheidet, wie viele Chunks gleichzeitig als Kontext übergeben werden können. Grössere Fenster (z. B. 128k Tokens) erlauben mehr Kontext, erhöhen aber Kosten und Latenz und leiden teils unter dem «Lost in the Middle»-Effekt.
Beispiel
Bei einem Modell mit 8'000 Tokens Kontextfenster und einem System-Prompt von 1'000 Tokens bleiben rund 7'000 Tokens für Dokumente und Antwort – genug für etwa 15–20 mittlere Chunks plus Antwort.
Im ausführlichen Fachartikel erklären wir Kontextfenster mit Architektur, Praxisbeispielen und Best Practices im Detail: