RLHF
Abkürzungen / Synonyme: Reinforcement Learning
Kurzdefinition
Reinforcement Learning from Human Feedback: Eine Methode, bei der menschliches Feedback genutzt wird, um das Verhalten von KI-Modellen an menschlichen Werten und Präferenzen auszurichten.
Ausführliche Erklärung
RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsphase, die ein rohes Sprachmodell hilfreich, harmlos und ehrlich macht. Menschen bewerten dabei Modellantworten, aus diesen Präferenzen wird ein Belohnungsmodell trainiert, und das Sprachmodell wird per Reinforcement Learning darauf optimiert. RLHF ist der Grund, warum moderne Chat-Modelle Anweisungen befolgen und unerwünschte Ausgaben vermeiden – es verwandelt ein reines Textvorhersage-Modell in einen brauchbaren Assistenten.
Beispiel
Durch RLHF lernt ein Modell, auf eine gefährliche Anfrage höflich abzulehnen, statt einfach die statistisch wahrscheinlichste Fortsetzung auszugeben.
Im ausführlichen Fachartikel erklären wir RLHF mit Architektur, Praxisbeispielen und Best Practices im Detail: