RAG-Evaluation verständlich erklärt: Metriken für RAG-Systeme
Die RAG-Evaluation befasst sich mit der qualitativen Bewertung von Retrieval-Augmented Generation Systemen. Während die Evaluation allgemeiner Sprachmodelle oft subjektiv ist, erlaubt die Struktur eines RAG-Systems eine präzise mathematische Aufteilung der Qualitätsmessung. Hierbei wird getrennt bewertet, wie gut das System relevante Dokumente sucht (Retrieval) und wie korrekt das Modell die Antwort formuliert (Generation).
Die Evaluation schliesst direkt an die RAG-Architektur an und liefert die Datengrundlage dafür, ob ein No-Answer-Gate zu streng oder zu locker eingestellt ist. Sie ist damit das Werkzeug, mit dem sich Halluzinationen messbar machen und gezielt reduzieren lassen.
Die RAG-Triade (The RAG Triad)
Ein bewährtes Konzept zur Strukturierung der RAG-Evaluation ist die RAG-Triade. Sie definiert drei Kern-Beziehungen, die kontinuierlich gemessen werden müssen:
┌──────────────────────┐
│ Benutzerfrage │
└──────┬──────────▲────┘
│ │
Context Relevance │ │ Answer Relevance
(Ist die Suche │ │ (Wurde die Frage
hilfreich?) │ │ beantwortet?)
▼ │
┌──────────────────────┐
│ Gefundener Kontext │
└──────┬──────────▲────┘
│ │
│ │ Groundedness / Faithfulness
│ │ (Basiert die Antwort
│ │ nur auf Fakten?)
▼ │
┌──────────────────────┐
│ Generierte Antwort │
└──────────────────────┘
- Context Relevance (Kontext-Relevanz): Misst die Qualität des Retrievals. Sind die aus der Datenbank abgerufenen Textabschnitte für die Beantwortung der Frage nützlich oder enthalten sie nur störendes Rauschen?
- Groundedness / Faithfulness (Fundiertheit / Treue): Misst die Qualität der Generierung. Weicht das Modell vom übergebenen Kontext ab und erfindet Behauptungen hinzu? Eine treue Antwort basiert zu 100 % auf den übergebenen Dokumenten.
- Answer Relevance (Antwort-Relevanz): Misst das Zusammenspiel. Geht die Antwort direkt auf die Frage des Nutzers ein oder weicht sie aus?
Die RAGAS-Metriken im Überblick
Die vier zentralen Metriken lassen sich danach ordnen, welche Stufe der Pipeline sie prüfen und was ein niedriger Wert bedeutet:
| Metrik | Stufe | Misst | Niedriger Wert deutet auf |
|---|---|---|---|
| Context Relevance | Retrieval | Nützlichkeit der Treffer | Rauschen, schlechte Suche |
| Context Recall | Retrieval | Vollständigkeit der Treffer | fehlende Dokumente |
| Faithfulness | Generation | Beleg durch den Kontext | Halluzinationen |
| Answer Relevance | Zusammenspiel | Treffsicherheit der Antwort | Ausweichen, Themaverfehlung |
Die RAGAS-Metriken im Detail
Das Open-Source-Framework RAGAS (Retrieval Augmented Generation Assessment) hat sich als Industriestandard für die automatisierte Bewertung etabliert. Es nutzt ein starkes Sprachmodell (LLM-as-a-Judge), um folgende Metriken numerisch (von 0 bis 1) zu berechnen:
Faithfulness (Treue zum Kontext)
- Berechnung: Das System extrahiert alle einzelnen Aussagen (Statements) aus der generierten Antwort. Anschliessend prüft es für jede Aussage, ob sie im übergebenen Dokumentenkontext steht. $$\text{Faithfulness} = \frac{\text{Anzahl der durch den Kontext belegten Aussagen}}{\text{Gesamtanzahl der Aussagen in der Antwort}}$$
Answer Relevance (Antwort-Relevanz)
- Berechnung: Die Schiedsrichter-KI generiert basierend auf der ausgegebenen Antwort des Systems mehrere hypothetische Fragen. Danach wird die semantische Ähnlichkeit dieser hypothetischen Fragen zur tatsächlichen Benutzerfrage gemessen. Stimmen sie überein, ist die Antwort-Relevanz hoch.
Context Recall (Kontext-Abdeckung)
- Berechnung: Erfordert eine vordefinierte perfekte Antwort (Ground Truth). Es wird geprüft, ob alle für die perfekte Antwort nötigen Informationen im abgerufenen Kontext enthalten waren. $$\text{Context Recall} = \frac{\text{Anzahl der mit dem Kontext belegbaren Sätze der Ground Truth}}{\text{Gesamtzahl der Sätze der Ground Truth}}$$
Context Precision (Kontext-Präzision)
- Berechnung: Bewertet, ob die für die Beantwortung wichtigsten Text-Chunks im Suchergebnis ganz oben sortiert waren. Dies ist wichtig, um Latenzen und Token-Kosten gering zu halten.
Praxisbeispiel: Eine fehlerhafte Antwort einordnen
Ein Nutzer fragt: „Wie hoch ist die Kündigungsfrist in der Probezeit?“ Das System antwortet mit „drei Monaten“ – falsch, korrekt wären sieben Tage.
- Context Relevance niedrig? Dann hat die Vektorsuche das falsche Dokument geliefert – das Problem liegt im Retrieval (z. B. ungünstiges Chunking).
- Context Relevance hoch, Faithfulness niedrig? Das richtige Dokument lag vor, das Modell hat aber frei formuliert – das Problem liegt in der Generation (Prompt oder Modell).
Erst diese Aufteilung macht die Fehlersuche systematisch statt zufällig.
Praktische Relevanz für Unternehmen
Ohne systematische RAG-Evaluation sind Änderungen an Enterprise-Systemen blindes Raten.
- Erhöhen Sie die Chunk-Grösse, verbessert sich eventuell der Context Recall, aber die Context Precision sinkt.
- Wechseln Sie das Embedding-Modell, verändern sich die Suchergebnisse und damit die Faithfulness.
- Best Practice: Implementieren Sie automatische Evaluations-Pipelines vor jedem Release, um sicherzustellen, dass die System-Performance konstant hoch bleibt.
[!TIP] Die kontinuierliche Messung der RAG-Metriken schützt B2B-Systeme vor unerwarteten Fehlern. Erfahren Sie auf allerate.dev mehr über unsere Methoden zur Qualitätssicherung und Absicherung Ihrer KI-Infrastruktur.
Häufig gestellte Fragen (FAQ)
Was misst die Metrik „Faithfulness“ (Treue)?
Faithfulness prüft, ob alle im Antworttext der KI aufgestellten Behauptungen direkt durch den bereitgestellten Dokumentenkontext belegt werden können. Ein niedriger Wert deutet auf Halluzinationen hin.
Was ist der Vorteil automatisierter Frameworks wie RAGAS?
Sie erlauben es, Hunderte von Testfragen im Rahmen von Nightly Builds oder Deployment-Pipelines automatisch auszuwerten. Dies macht Regressionstests bei Code- oder Datenänderungen skalierbar.
Was ist ein Golden Dataset in der RAG-Evaluation?
Ein Golden Dataset ist eine kuratierte Sammlung von Testfragen mit jeweils bekannter, geprüfter Idealantwort (Ground Truth) und den dazugehörigen Quelldokumenten. Es bildet die Referenz, gegen die Metriken wie Context Recall und Faithfulness automatisiert gemessen werden. Ohne ein solches Datenset bleibt jede Bewertung subjektiv.
Wie unterscheidet sich die RAG-Evaluation von der Bewertung eines reinen LLMs?
Bei einem reinen Sprachmodell lässt sich nur das Endergebnis beurteilen. Ein RAG-System hingegen besteht aus zwei trennbaren Stufen – Retrieval und Generation –, die getrennt gemessen werden können. Dadurch lässt sich präzise eingrenzen, ob ein Fehler an einer schlechten Suche oder an einer ungenauen Formulierung liegt.