Chunking
Abkürzungen / Synonyme: Textsegmentierung
Kurzdefinition
Das Aufteilen grosser Dokumente in kleinere, semantisch zusammenhängende Textabschnitte (Chunks) vor der Indizierung.
Ausführliche Erklärung
Chunking ist der vielleicht wichtigste Hebel für die Qualität eines RAG-Systems. Da LLMs ein begrenztes Kontextfenster haben und die Vektorsuche pro Chunk arbeitet, müssen Dokumente in passende Segmente zerlegt werden. Zu kleine Chunks verlieren den Zusammenhang, zu grosse verwässern den Vektor und mischen mehrere Themen. Bewährt haben sich 300–500 Tokens mit 10–20 % Overlap, getrennt an semantischen Grenzen wie Absätzen oder Überschriften. Strukturierte Inhalte (Tabellen, Code) erfordern oft spezialisierte Strategien.
Beispiel
Ein 20-seitiges Handbuch wird in Chunks zu je ~400 Tokens mit 60 Tokens Overlap zerlegt; so bleibt der Übergang zwischen zwei Abschnitten erhalten und Sätze werden nicht hart abgeschnitten.
Im ausführlichen Fachartikel erklären wir Chunking mit Architektur, Praxisbeispielen und Best Practices im Detail: