Reinforcement Learning from Human Feedback (RLHF)
Erfahren Sie, wie Reinforcement Learning from Human Feedback (RLHF) KI mit menschlichen Werten in Einklang bringt. Entdecken Sie die Kernkomponenten und die Integration mit Ultralytics .
Reinforcement Learning from Human Feedback (RLHF) ist eine fortschrittliche Technik des maschinellen Lernens, die Modelle der künstlichen
Intelligenz verfeinert, indem sie direkte menschliche Eingaben in den Trainingszyklus einbezieht. Im Gegensatz zum standardmäßigen
überwachten Lernen, das sich ausschließlich auf
statische, beschriftete Datensätze stützt, führt RLHF einen dynamischen Feedback-Mechanismus ein, bei dem menschliche Bewerter die Ergebnisse des Modells einstufen oder bewerten
. Dieser Prozess ermöglicht es der KI, komplexe, subjektive oder nuancierte Ziele zu erfassen – wie „Hilfreichsein“,
„Sicherheit“ oder „Kreativität“ –, die mit einer einfachen mathematischen Verlustfunktion nur schwer zu definieren sind.
RLHF ist zu einem Eckpfeiler in der Entwicklung moderner
großer Sprachmodelle (LLMs) und
generativer KI geworden und stellt sicher, dass leistungsstarke Basismodelle effektiv mit menschlichen Werten und der Absicht der Nutzer übereinstimmen.
Die Kernkomponenten von RLHF
Der RLHF-Prozess folgt im Allgemeinen einem dreistufigen Ablauf, der darauf ausgelegt ist, die Lücke zwischen rohen Vorhersagefähigkeiten
und menschlich orientiertem Verhalten zu schließen.
-
Supervised Fine-Tuning (SFT): Der Arbeitsablauf beginnt in der Regel mit einem vortrainierten
Grundlagenmodell. Entwickler führen eine erste
Feinabstimmung anhand eines kleineren, hochwertigen Datensatzes mit
Demonstrationen durch (z. B. von Experten verfasste Frage-Antwort-Paare). In diesem Schritt wird eine Basisrichtlinie festgelegt, die
dem Modell das für die Aufgabe erwartete allgemeine Format und den Tonfall vermittelt.
-
Belohnungsmodell-Training: Diese Phase ist das charakteristische Merkmal von RLHF. Menschliche Annotatoren überprüfen
mehrere vom Modell für dieselbe Eingabe generierte Ergebnisse und ordnen sie von best bis schlecht. Diese
Datenkennzeichnung erzeugt einen Datensatz mit
Präferenzen. Ein separates neuronales Netzwerk, das sogenannte
Belohnungsmodell, wird anhand dieser Vergleichsdaten trainiert, um eine skalare Punktzahl vorherzusagen, die das menschliche Urteil widerspiegelt. Die
auf der Ultralytics verfügbaren Tools können die Verwaltung
solcher Annotations-Workflows optimieren.
-
Optimierung durch bestärkendes Lernen: Schließlich fungiert das ursprüngliche Modell als
KI-Agent innerhalb einer Umgebung für bestärkendes Lernen.
Anhand des Belohnungsmodells als Leitfaden passen Optimierungsalgorithmen wie Proximal Policy Optimization (PPO) die
Parameter des Modells an, um die erwartete Belohnung zu maximieren. Dieser Schritt gleicht die Strategie des Modells an die erlernten menschlichen
Präferenzen an und fördert hilfreiche und sichere Verhaltensweisen, während schädliche oder unsinnige Ergebnisse unterbunden werden.
Anwendungsfälle in der Praxis
RLHF hat sich als entscheidend für den Einsatz von KI-Systemen erwiesen, die hohe Sicherheitsstandards und ein differenziertes Verständnis der
menschlichen Interaktion erfordern.
-
Konversations-KI und Chatbots: Die bekannteste Anwendung von RLHF ist die Ausrichtung von Chatbots, damit
sie hilfreich, harmlos und ehrlich sind. Durch die Bestrafung von Ausgabewerten, die voreingenommen, sachlich falsch oder gefährlich sind, hilft RLHF
dabei, Halluzinationen in LLMs zu mildern und
das Risiko algorithmischer Verzerrungen zu verringern. Dadurch
wird sichergestellt, dass virtuelle Assistenten schädliche Anweisungen ablehnen können, während sie für legitime Anfragen weiterhin nützlich bleiben.
-
Robotik und physikalische Steuerung: RLHF geht über Text hinaus und erstreckt sich auf
KI in der Robotik, wo die Definition einer perfekten Belohnungsfunktion
für komplexe physikalische Aufgaben eine Herausforderung darstellt. Ein Roboter, der beispielsweise lernt, sich in einem überfüllten Lagerhaus zu bewegen,
kann von menschlichen Aufsichtspersonen Feedback darüber erhalten, welche Bewegungsbahnen sicher waren und welche zu Störungen geführt haben.
Dieses Feedback verfeinert die Steuerungsrichtlinien des Roboters effektiver als einfaches
tiefes Verstärkungslernen, das
ausschließlich auf der Zielerreichung basiert.
RLHF vs. Standard-Verstärkungslernen
Es ist hilfreich, RLHF vom traditionellen
verstärkenden Lernen (RL) zu unterscheiden, um
seinen spezifischen Nutzen zu verstehen.
-
Standard-RL: In traditionellen Umgebungen ist die Belohnungsfunktion oft fest in der Umgebung programmiert.
In einem Videospiel beispielsweise gibt die Umgebung ein klares Signal (+1 für einen Sieg, -1 für eine Niederlage). Der Agent
optimiert seine Handlungen innerhalb dieses definierten
Markov-Entscheidungsprozesses (MDP).
-
RLHF: In vielen realen Szenarien, wie dem Schreiben einer kreativen Geschichte oder dem höflichen Autofahren,
ist „Erfolg“ subjektiv. RLHF löst dieses Problem, indem es die fest programmierte Belohnung durch ein gelerntes Belohnungsmodell ersetzt,
das aus menschlichen Präferenzen abgeleitet ist. Dies ermöglicht die Optimierung abstrakter Konzepte wie „Qualität“ oder
„Angemessenheit“, die sich nicht explizit programmieren lassen.
Integration von Wahrnehmung mit Rückkopplungsschleifen
In visuellen Anwendungen stützen sich RLHF-ausgerichtete Agenten häufig auf
Computervision (CV), um den Zustand ihrer Umgebung wahrzunehmen,
bevor sie handeln. Ein robuster Detektor wie
YOLO26 fungiert als Wahrnehmungsschicht und liefert
strukturierte Beobachtungen (z. B. „Hindernis in 3 Metern Entfernung erkannt”), die das Policy-Netzwerk zur Auswahl einer
Aktion verwendet.
Das folgende Python veranschaulicht ein vereinfachtes Konzept, bei dem ein YOLO den Umgebungszustand bereitstellt. In
einer vollständigen RLHF-Schleife würde das „Belohnungssignal” von einem Modell kommen, das anhand von menschlichem Feedback zu den
Entscheidungen des Agenten auf der Grundlage dieser Erkennungsdaten trainiert wurde.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Durch die Kombination leistungsstarker Wahrnehmungsmodelle mit Richtlinien, die durch menschliches Feedback verfeinert wurden, können Entwickler Systeme erstellen, die
nicht nur intelligent sind, sondern auch streng an den
Sicherheitsprinzipien für KI ausgerichtet sind. Laufende Forschungen zu skalierbarer
Überwachung, wie beispielsweise
Constitutional AI,
treiben die Entwicklung in diesem Bereich weiter voran, mit dem Ziel, den Engpass bei der groß angelegten menschlichen Annotation zu verringern und gleichzeitig eine hohe
Modellleistung aufrechtzuerhalten.