RLHF

Abkürzungen / Synonyme: Reinforcement Learning

Kurzdefinition

Reinforcement Learning from Human Feedback: Eine Methode, bei der menschliches Feedback genutzt wird, um das Verhalten von KI-Modellen an menschlichen Werten und Präferenzen auszurichten.

Ausführliche Erklärung

RLHF (Reinforcement Learning from Human Feedback) ist die Trainingsphase, die ein rohes Sprachmodell hilfreich, harmlos und ehrlich macht. Menschen bewerten dabei Modellantworten, aus diesen Präferenzen wird ein Belohnungsmodell trainiert, und das Sprachmodell wird per Reinforcement Learning darauf optimiert. RLHF ist der Grund, warum moderne Chat-Modelle Anweisungen befolgen und unerwünschte Ausgaben vermeiden – es verwandelt ein reines Textvorhersage-Modell in einen brauchbaren Assistenten.

Beispiel

Durch RLHF lernt ein Modell, auf eine gefährliche Anfrage höflich abzulehnen, statt einfach die statistisch wahrscheinlichste Fortsetzung auszugeben.

Vertiefender Fachartikel

Im ausführlichen Fachartikel erklären wir RLHF mit Architektur, Praxisbeispielen und Best Practices im Detail:

Fachartikel zu RLHF aufrufen