Glossar

Verstärkungslernen aus menschlichem Feedback (RLHF)

Entdecken Sie, wie Reinforcement Learning from Human Feedback (RLHF) die KI-Leistung verbessert, indem es Modelle mit menschlichen Werten abgleicht und so für eine sicherere und intelligentere KI sorgt.

Reinforcement Learning from Human Feedback (RLHF) ist eine fortschrittliche Technik des maschinellen Lernens, die darauf abzielt, Modelle der künstlichen Intelligenz (KI) mit komplexen, subjektiven menschlichen Werten in Einklang zu bringen. Anstatt sich auf eine vordefinierte Belohnungsfunktion zu verlassen, nutzt RLHF menschliche Präferenzen, um ein "Belohnungsmodell" zu trainieren, das den Lernprozess der KI steuert. Dieser Ansatz ist besonders effektiv für Aufgaben, bei denen die Definition von "guter" Leistung nuanciert, subjektiv oder schwer mit einer einfachen Metrik zu spezifizieren ist, wie z. B. die Erstellung eines sicheren, hilfreichen und kohärenten Dialogs.

Wie funktioniert der RLHF?

Der RLHF-Prozess umfasst in der Regel drei wichtige Schritte:

  1. Vortraining eines Sprachmodells: Es beginnt mit einem großen Basissprachmodell (LLM), das auf einem umfangreichen Textdatenkorpus vortrainiert wurde. Dieses Ausgangsmodell, das einem Basismodell ähnelt, verfügt über ein umfassendes Verständnis von Sprache, ist aber noch nicht auf einen bestimmten Stil oder eine bestimmte Aufgabe spezialisiert. Auf diesen Schritt kann optional eine überwachte Feinabstimmung auf einem hochwertigen Datensatz folgen.
  2. Ausbildung eines Belohnungsmodells: Dies ist der Kern von RLHF. Menschliche Etikettierer erhalten als Antwort auf eine Aufforderung mehrere vom vortrainierten Modell generierte Ergebnisse. Sie bewerten diese Ausgaben von der besten bis zur schlechtesten auf der Grundlage von Kriterien wie Hilfsbereitschaft, Wahrhaftigkeit und Sicherheit. Diese Präferenzdaten werden dann verwendet, um ein separates Belohnungsmodell zu trainieren. Das Belohnungsmodell lernt vorherzusagen, welche Ausgaben ein Mensch bevorzugen würde, und bildet so das menschliche Urteilsvermögen effektiv ab.
  3. Feinabstimmung mit Reinforcement Learning: Das vortrainierte Modell wird mit Hilfe von Reinforcement Learning (RL) weiter verfeinert. In dieser Phase erzeugt das Modell (das als Agent agiert) Outputs, und das Belohnungsmodell liefert eine "Belohnungs"-Bewertung für jeden Output. Dieser Prozess, der oft mit Algorithmen wie Proximal Policy Optimization (PPO) gesteuert wird, ermutigt das KI-Modell, seine Parameter so anzupassen, dass es Reaktionen erzeugt, die die Belohnung maximieren, und so sein Verhalten an die erlernten menschlichen Präferenzen anpasst. Pionierarbeit von Organisationen wie OpenAI und DeepMind hat ihre Wirksamkeit bewiesen.

Anwendungen in der realen Welt

Das RLHF war maßgeblich an der Entwicklung moderner KI-Systeme beteiligt.

  • Fortschrittliche Chatbots: Führende KI-Chatbots wie ChatGPT von OpenAI und Claude von Anthropic verwenden RLHF, um sicherzustellen, dass ihre Antworten nicht nur korrekt, sondern auch harmlos und ethisch vertretbar sind und der Absicht des Nutzers entsprechen. Dies trägt dazu bei, Probleme wie die Generierung voreingenommener oder toxischer Inhalte zu entschärfen, eine häufige Herausforderung bei groß angelegter generativer KI.
  • Autonomes Fahren - Präferenzen: Bei der Entwicklung von KI für selbstfahrende Autos kann RLHF das Feedback von Fahrern zu simulierten Verhaltensweisen einbeziehen, wie z. B. Komfort beim Spurwechsel oder Entscheidungsfindung in unklaren Situationen. Dies hilft der KI, einen Fahrstil zu erlernen, der sich für den Menschen intuitiv und vertrauenswürdig anfühlt, und ergänzt damit traditionelle Computer-Vision-Aufgaben wie die Objekterkennung, die von Modellen wie Ultralytics YOLO durchgeführt werden.

RLHF vs. Verwandte Konzepte

Es ist wichtig, RLHF von anderen KI-Lerntechniken zu unterscheiden.

  • Verstärkungslernen: Beim Standard-RL müssen die Entwickler manuell eine Belohnungsfunktion erstellen, um das gewünschte Verhalten zu definieren. Dies ist einfach für Spiele mit eindeutigen Punktzahlen, aber schwierig für komplexe, reale Aufgaben. RLHF löst dieses Problem, indem es die Belohnungsfunktion aus menschlichem Feedback erlernt, wodurch es sich für Probleme eignet, für die es keine offensichtliche Metrik für den Erfolg gibt.
  • Überwachtes Lernen: Beim überwachten Lernen werden Modelle auf Datensätzen mit einzelnen "richtigen" Antworten trainiert. Dieser Ansatz ist weniger effektiv für kreative oder subjektive Aufgaben, bei denen es mehrere gute Antworten gibt. Die Verwendung von Präferenz-Ranglisten (z. B. "A ist besser als B") durch RLHF ermöglicht es, Mehrdeutigkeit zu navigieren und nuanciertes Verhalten zu erlernen.

Herausforderungen und zukünftige Wege

Trotz ihrer Leistungsfähigkeit steht die RLHF vor Herausforderungen. Qualitativ hochwertiges menschliches Feedback ist teuer und kann zu einer Verzerrung des Datensatzes führen, wenn die Beschreiber nicht vielfältig sind. Außerdem könnte die KI Wege finden, das Belohnungsmodell zu "überlisten", ein Phänomen, das als "Reward Hacking" bekannt ist.

Künftige Forschungsarbeiten befassen sich mit effizienteren Feedback-Methoden und Alternativen wie der konstitutionellen KI, die KI-generierte Prinzipien zur Steuerung des Modells verwendet. Die Implementierung von RLHF erfordert Fachwissen in verschiedenen Bereichen des maschinellen Lernens, aber Tools wie die TRL-Bibliothek von Hugging Face machen sie leichter zugänglich. Plattformen wie Ultralytics HUB bieten eine Infrastruktur für die Verwaltung von Datensätzen und Trainingsmodellen, die für fortgeschrittene Abgleichsaufgaben und robuste Machine Learning Operations (MLOps) grundlegend sind.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert