Ingestion

Abkürzungen / Synonyme: Datenaufbereitung

Kurzdefinition

Der Prozess des Einlesens, Aufarbeitens und Vorbereitens von Daten (z. B. durch Chunking und Embedding) für die Speicherung im RAG-System.

Ausführliche Erklärung

Ingestion ist die erste Phase einer RAG-Pipeline und entscheidet über die Datenqualität des gesamten Systems. Sie umfasst das Einlesen der Quellen (PDF, HTML, Datenbanken), die Textbereinigung (Entfernen von Navigation, Boilerplate, Skripten), das Chunking, die Embedding-Erzeugung und schliesslich das Indexieren in der Vektordatenbank – oft ergänzt um Metadaten für späteres Filtering. Fehler in der Ingestion (z. B. schlechtes Chunking oder unbereinigtes HTML) lassen sich später kaum kompensieren: «Garbage in, garbage out» gilt hier besonders.

Beispiel

Beim Import eines Firmen-Wikis werden zuerst Kopf-/Fusszeilen entfernt, dann Abschnitte in 400-Token-Chunks zerlegt, eingebettet und mit Metadaten wie Autor und Datum in pgvector gespeichert.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Ingestion mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Ingestion aufrufen