Evaluation

Abkürzungen / Synonyme: Bewertung

Kurzdefinition

Das systematische Messen und Bewerten der Qualität und Genauigkeit von KI-Modellen oder RAG-Pipelines.

Ausführliche Erklärung

Evaluation ist das systematische Messen der Qualität von KI- und RAG-Systemen anhand definierter Metriken und Testdatensätze. Für RAG sind etwa Faithfulness (Quellentreue), Answer Relevance, Context Precision und Recall zentral. Ohne Evaluation lässt sich nicht objektiv beurteilen, ob Änderungen am System eine Verbesserung bringen. Bewährt haben sich automatisierte Testsets (Golden Sets), oft ergänzt um LLM-as-a-Judge und menschliche Stichproben.

Beispiel

Vor und nach der Einführung von Reranking misst ein Testset mit 100 Frage-Antwort-Paaren, ob die Faithfulness von 0,82 auf 0,93 steigt.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir Evaluation mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu Evaluation aufrufen