Embedding

Abkürzungen / Synonyme: Vektordarstellung

Kurzdefinition

Die Darstellung von Wörtern, Sätzen oder Dokumenten als hochdimensionale Zahlenvektoren zur semantischen Analyse.

Ausführliche Erklärung

Ein Embedding übersetzt Text in einen Vektor aus mehreren hundert bis tausend Zahlen, der die Bedeutung des Textes im semantischen Raum kodiert. Texte mit ähnlicher Bedeutung liegen nah beieinander, auch wenn sie keine gemeinsamen Wörter teilen. Embeddings sind die Grundlage der Vektorsuche in RAG-Systemen: Sowohl Dokument-Chunks als auch die Benutzerfrage werden eingebettet, und die Ähnlichkeit wird meist über die Cosine Similarity berechnet. Die Wahl des Embedding-Modells (Dimension, Sprache, Domäne) beeinflusst die Retrieval-Qualität massgeblich.

Beispiel

Die Sätze «Wie storniere ich meine Bestellung?» und «Bestellung rückgängig machen» erzeugen ähnliche Embeddings und liegen daher im Vektorraum nahe beieinander – obwohl sie kaum gemeinsame Wörter haben.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Embedding mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Embedding aufrufen