BM25
Kurzdefinition
Ein klassischer Algorithmus für die keyword-basierte Volltextsuche, der die Termhäufigkeit und Dokumentenlänge bewertet.
Ausführliche Erklärung
BM25 (Best Matching 25) ist der De-facto-Standard der lexikalischen Suche. Er bewertet ein Dokument anhand der Häufigkeit der Suchbegriffe (Term Frequency), gewichtet seltene Begriffe stärker (Inverse Document Frequency) und normalisiert auf die Dokumentlänge, damit lange Texte nicht automatisch bevorzugt werden. BM25 ist schnell, transparent und exzellent bei exakten Begriffen, versteht aber keine Synonyme oder Bedeutung. In modernen RAG-Systemen wird BM25 daher meist mit der Vektorsuche zu Hybrid Search kombiniert.
Beispiel
In PostgreSQL lässt sich BM25-ähnliches Ranking über die Volltextsuche (tsvector/ts_rank) umsetzen und mit pgvector zu einer Hybrid-Search-Abfrage verbinden.
Im ausführlichen Fachartikel erklären wir BM25 mit Architektur, Praxisbeispielen und Best Practices im Detail: