Retrieval-Augmented Generation

Reranking im RAG: Zweistufiges Retrieval für maximale Präzision

Das Reranking (Neu-Sortierung) ist eine Optimierungsmethode in der Retrieval-Augmented-Generation-Architektur. Es fungiert als Qualitätsfilter der zweiten Stufe. Reranking sorgt dafür, dass aus einer groben Vorauswahl von Dokumenten die inhaltlich wertvollsten Abschnitte ermittelt und an die obersten Positionen sortiert werden, bevor der Kontext an das Sprachmodell übergeben wird.

Reranking setzt damit genau dort an, wo die reine Vektorsuche und die Hybrid-Suche an Grenzen stossen: Sie liefern schnell viele plausible Kandidaten, treffen aber bei der Feinsortierung nicht immer die beste Reihenfolge. Der Reranker korrigiert diese Reihenfolge mit deutlich tieferem Sprachverständnis.

Das zweistufige Retrieval-Prinzip (Two-Stage Retrieval)

Um sowohl Geschwindigkeit (Millisekunden-Reaktionszeit) als auch maximale Präzision zu gewährleisten, nutzen moderne B2B-RAG-Systeme eine zweistufige Pipeline:

                  ┌──────────────────────┐
                  │ Benutzer-Suchanfrage │
                  └──────────┬───────────┘
                             ▼
  ┌─────────────────────────────────────────────────────┐
  │ Stufe 1: Grobfilterung (Fast Retrieval)              │
  │ Vektorsuche / Hybrid Search sucht aus Millionen     │
  │ Dokumenten die Top 50 bis 100 Kandidaten heraus.    │
  └──────────────────────────┬──────────────────────────┘
                             ▼
  ┌─────────────────────────────────────────────────────┐
  │ Stufe 2: Reranking (Deep Re-scoring)                │
  │ Ein Cross-Encoder-Modell bewertet diese 100         │
  │ Kandidaten intensiv und wählt die Top 3 bis 5 aus.  │
  └──────────────────────────┬──────────────────────────┘
                             ▼
                  ┌──────────────────────┐
                  │   Sprachmodell (LLM) │
                  └──────────────────────┘

Bi-Encoder vs. Cross-Encoder: Der technologische Kern

Der Leistungsunterschied zwischen der ersten und der zweiten Retrieval-Stufe liegt in den verwendeten Modell-Typen begründet:

1. Bi-Encoder (Stufe 1 - Retrieval)

  • Funktionsweise: Dokumente und Suchanfragen werden getrennt voneinander in Vektoren übersetzt. Die Datenbank vergleicht anschliessend lediglich die fertigen Vektoren (z. B. via Kosinus-Ähnlichkeit).
  • Vorteil: Extrem schnell und hochgradig skalierbar. Abstände zwischen Millionen von Vektoren können in Millisekunden berechnet werden.
  • Nachteil: Da Dokumente und Fragen sich während der Vektorerstellung nicht gegenseitig beeinflussen, gehen subtile semantische Zusammenhänge verloren.

2. Cross-Encoder (Stufe 2 - Reranking)

  • Funktionsweise: Der Cross-Encoder erhält die Suchfrage und einen Text-Chunk gemeinsam als Eingabe. Er nutzt die vollen Aufmerksamkeits-Layer (Attention-Mechanismen) des neuronalen Netzes, um jedes Wort der Frage in Relation zu jedem Wort des Dokuments zu setzen.
  • Vorteil: Extrem hohe Genauigkeit. Er versteht logische Verneinungen, komplexe Verknüpfungen und feine Nuancen im Text weit besser als ein Bi-Encoder.
  • Nachteil: Rechenintensiv und langsam. Es ist unmöglich, eine Suchanfrage mit Millionen von Dokumenten per Cross-Encoder abzugleichen. Daher wird er erst in Stufe 2 für die 50 bis 100 vorsortierten Kandidaten verwendet.

Warum Reranking geschäftskritisch ist

  1. Behebung des „Lost in the Middle“-Problems: Studien zeigen, dass Sprachmodelle Informationen am Anfang und am Ende eines langen Kontexts sehr gut verarbeiten, Fakten in der Mitte des Textes jedoch häufig übersehen. Reranking stellt sicher, dass die wichtigsten Fakten ganz oben stehen.
  2. Rauschen reduzieren: Ein Vektorsuch-Ergebnis kann Dokumente enthalten, die zwar thematisch verwandt klingen, die konkrete Frage aber nicht beantworten. Der Reranker erkennt dies und sortiert unbrauchbare Chunks gnadenlos aus.
  3. Bessere FAQ-Beantwortung: Besonders bei kurzen Fragen und Antworten verbessert ein Reranker (z. B. von Cohere oder BGE) die Genauigkeit des RAG-Systems dramatisch.

Bi-Encoder vs. Cross-Encoder im direkten Vergleich

Die beiden Modelltypen ergänzen sich, statt zu konkurrieren – jeder spielt seine Stärke in der passenden Stufe aus:

KriteriumBi-Encoder (Stufe 1)Cross-Encoder (Stufe 2)
EingabeFrage und Dokument getrenntFrage und Dokument gemeinsam
GeschwindigkeitSehr hoch (Millisekunden)Niedrig (rechenintensiv)
GenauigkeitGutSehr hoch
SkalierbarkeitMillionen DokumenteNur kleine Kandidatenmenge
Vorberechnung möglichJa (Embeddings im Index)Nein (immer live)

Deshalb sucht der Bi-Encoder zuerst grob aus Millionen Dokumenten vor, und der Cross-Encoder bewertet anschliessend nur noch die wenigen Top-Kandidaten präzise.


Wirkung von Reranking auf Qualität und Kosten

Das folgende vereinfachte Szenario zeigt, warum sich der zusätzliche Schritt lohnt:

MetrikOhne RerankingMit Reranking
An das LLM übergebene Chunks204
Eingabe-Tokens (ca.)8’0001’600
Anteil relevanter Chunks~40 %~90 %
AntwortqualitätSchwankendStabil hoch

Durch die Reduktion von 20 auf 4 präzise Chunks sinken die Token-Kosten deutlich, während das Kontextfenster nicht mit irrelevantem Rauschen gefüllt wird.


Praxisbeispiel: dieselbe Suche mit und ohne Reranker

Eine Mitarbeiterin fragt das Firmen-Wiki: «Wie beantrage ich unbezahlten Urlaub?»

  • Nur Vektorsuche (Top 5): Liefert vier Dokumente zu «bezahltem Urlaub» und «Ferienanspruch» – thematisch nah, aber an der Frage vorbei. Das eine relevante Dokument landet auf Position 5.
  • Mit Reranker: Der Cross-Encoder erkennt die entscheidende Verneinung «unbezahlt» und sortiert das passende Merkblatt auf Position 1.

Genau diese Sensibilität für feine Bedeutungsunterschiede ist der Grund, warum Reranking die Antwortqualität und Quellengenauigkeit spürbar erhöht.

[!TIP] Reranking ist das Geheimnis hinter extrem präzisen Firmen-KIs, die mit minimalen Token-Kosten auskommen. Probieren Sie es aus in der RAG-Demo auf unserer Schwester-Property allerate.dev.

Häufig gestellte Fragen (FAQ)

Was ist der Unterschied zwischen einem Bi-Encoder und einem Cross-Encoder?

Ein Bi-Encoder berechnet Embeddings für Frage und Dokumente unabhängig voneinander. Der Vergleich erfolgt extrem schnell über Vektordatenbanken. Ein Cross-Encoder analysiert Frage und Dokument gemeinsam im neuronalen Netz, was viel präziser, aber für grosse Datenmengen zu langsam ist.

Warum macht Reranking die KI-Antworten günstiger?

Durch Reranking können Sie dem Sprachmodell statt beispielsweise 20 nur noch die 3 bis 5 absolut besten Chunks als Kontext übergeben. Das spart teure Eingabe-Tokens und verkürzt die Antwortzeit (Latenz) des LLMs.

Wie viele Kandidaten sollte die erste Stufe an den Reranker übergeben?

In der Praxis bewähren sich 20 bis 100 Kandidaten. Zu wenige Kandidaten riskieren, dass das relevante Dokument schon in Stufe 1 herausfällt; zu viele erhöhen die Latenz und die Kosten des Cross-Encoders, ohne die Qualität weiter zu verbessern. Ein guter Startwert ist top_k = 50.

Braucht jedes RAG-System einen Reranker?

Nein. Bei kleinen, sauberen Wissensbasen mit wenigen Dokumenten reicht oft eine gute Vektor- oder Hybrid-Suche. Ein Reranker lohnt sich vor allem, wenn die Wissensbasis gross und heterogen ist, wenn viele ähnlich klingende Dokumente existieren oder wenn die Antwortpräzision geschäftskritisch ist.