Embedding
Abkürzungen / Synonyme: Vektordarstellung
Kurzdefinition
Die Darstellung von Wörtern, Sätzen oder Dokumenten als hochdimensionale Zahlenvektoren zur semantischen Analyse.
Ausführliche Erklärung
Ein Embedding übersetzt Text in einen Vektor aus mehreren hundert bis tausend Zahlen, der die Bedeutung des Textes im semantischen Raum kodiert. Texte mit ähnlicher Bedeutung liegen nah beieinander, auch wenn sie keine gemeinsamen Wörter teilen. Embeddings sind die Grundlage der Vektorsuche in RAG-Systemen: Sowohl Dokument-Chunks als auch die Benutzerfrage werden eingebettet, und die Ähnlichkeit wird meist über die Cosine Similarity berechnet. Die Wahl des Embedding-Modells (Dimension, Sprache, Domäne) beeinflusst die Retrieval-Qualität massgeblich.
Beispiel
Die Sätze «Wie storniere ich meine Bestellung?» und «Bestellung rückgängig machen» erzeugen ähnliche Embeddings und liegen daher im Vektorraum nahe beieinander – obwohl sie kaum gemeinsame Wörter haben.
Im ausführlichen Fachartikel erklären wir Embedding mit Architektur, Praxisbeispielen und Best Practices im Detail: