BM25

Kurzdefinition

Ein klassischer Algorithmus für die keyword-basierte Volltextsuche, der die Termhäufigkeit und Dokumentenlänge bewertet.

Ausführliche Erklärung

BM25 (Best Matching 25) ist der De-facto-Standard der lexikalischen Suche. Er bewertet ein Dokument anhand der Häufigkeit der Suchbegriffe (Term Frequency), gewichtet seltene Begriffe stärker (Inverse Document Frequency) und normalisiert auf die Dokumentlänge, damit lange Texte nicht automatisch bevorzugt werden. BM25 ist schnell, transparent und exzellent bei exakten Begriffen, versteht aber keine Synonyme oder Bedeutung. In modernen RAG-Systemen wird BM25 daher meist mit der Vektorsuche zu Hybrid Search kombiniert.

Beispiel

In PostgreSQL lässt sich BM25-ähnliches Ranking über die Volltextsuche (tsvector/ts_rank) umsetzen und mit pgvector zu einer Hybrid-Search-Abfrage verbinden.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir BM25 mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu BM25 aufrufen