Glossar

Verstärkungslernen aus menschlichem Feedback (RLHF)

Entdecke, wie Reinforcement Learning from Human Feedback (RLHF) die KI-Leistung verbessert, indem es die Modelle mit menschlichen Werten abgleicht und so für eine sicherere, intelligentere KI sorgt.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Reinforcement Learning from Human Feedback (RLHF) ist eine fortschrittliche Technik des maschinellen Lernens (ML), die darauf abzielt, KI-Modelle, insbesondere große Sprachmodelle (LLMs) und andere generative Systeme, besser an menschliche Absichten und Vorlieben anzupassen. Sie verfeinert das Standard-Paradigma des Reinforcement Learning (RL), indem sie menschliches Feedback direkt in die Trainingsschleife einbezieht und die künstliche Intelligenz (KI) so anleitet, dass sie Verhaltensweisen lernt, die hilfreich, harmlos und ehrlich sind, selbst wenn diese Eigenschaften durch traditionelle Belohnungsfunktionen schwer zu spezifizieren sind. Dieser Ansatz ist entscheidend für die Entwicklung sicherer und nützlicherer KI-Systeme, da er über einfache Genauigkeitskennzahlen hinausgeht und zu einer nuancierten Leistung führt, die sich an menschlichen Werten orientiert.

Wie RLHF funktioniert

RLHF umfasst in der Regel einen mehrstufigen Prozess, bei dem menschliche Einschätzungen einbezogen werden, um ein Belohnungsmodell zu trainieren, das dann die Feinabstimmung des primären KI-Modells steuert:

  1. Ein Modell vortrainieren: Ein erstes Modell (z. B. ein LLM) wird mit Standardmethoden, oft überwachtem Lernen, auf einem großen Datensatz trainiert. Dieses Modell kann relevante Inhalte generieren, aber es kann sein, dass ihm eine spezifische Ausrichtung fehlt.
  2. Sammeln von menschlichem Feedback: Das vorab trainierte Modell erzeugt mehrere Ausgaben für verschiedene Aufforderungen. Menschliche Bewerter bewerten diese Ergebnisse nach Qualität, Nützlichkeit, Unbedenklichkeit oder anderen gewünschten Kriterien. Dieses vergleichende Feedback ist oft zuverlässiger und für Menschen einfacher zu geben als absolute Punktzahlen. Diese Daten bilden einen Präferenzdatensatz.
  3. Training eines Belohnungsmodells: Ein separates Modell, das so genannte Belohnungsmodell, wird anhand der menschlichen Präferenzdaten trainiert. Es soll vorhersagen, welche Ausgabe ein Mensch bevorzugen würde, indem es das menschliche Urteil nachahmt und ein skalares Belohnungssignal zuweist.
  4. Feinabstimmung mit Reinforcement Learning: Das ursprüngliche KI-Modell wird dann mithilfe von Reinforcement Learning (RL) fein abgestimmt (insbesondere mit Algorithmen wie Proximal Policy Optimization (PPO)). Das Belohnungsmodell liefert in dieser Phase das Belohnungssignal. Das KI-Modell probiert verschiedene Ergebnisse aus, und die vom Belohnungsmodell bevorzugten werden verstärkt, um das Verhalten des Modells an den menschlichen Präferenzen auszurichten. Die grundlegenden Konzepte von RL werden in Ressourcen wie der Einführung von Sutton & Barto ausführlich beschrieben.

Dieser iterative Zyklus hilft dem KI-Modell, komplexe, subjektive Ziele zu lernen, die programmatisch schwer zu definieren sind, und verbessert Aspekte wie die KI-Ethik und reduziert algorithmische Verzerrungen.

RLHF vs. Verwandte Konzepte

  • Standard Reinforcement Learning (RL): Traditionelles RL basiert auf explizit programmierten Belohnungsfunktionen, die auf Umweltzuständen und Aktionen basieren. RLHF ersetzt oder ergänzt dies durch ein erlerntes Belohnungsmodell, das auf menschlichen Präferenzen basiert und es ermöglicht, nuanciertere oder subjektive Ziele zu erfassen. Erforsche Deep Reinforcement Learning für fortgeschrittenere RL-Techniken.
  • Konstitutionelle KI (CAI): Entwickelt von AnthropicCAI ist eine alternative Ausrichtungsmethode. Während RLHF menschliches Feedback nutzt, um das Belohnungsmodell sowohl auf Hilfsbereitschaft als auch auf Harmlosigkeit zu trainieren, verwendet CAI KI-Feedback, das von einer vordefinierten "Verfassung" (einer Reihe von Regeln oder Prinzipien) geleitet wird, um das Modell auf Harmlosigkeit zu überwachen, wobei oft noch menschliches Feedback für Hilfsbereitschaft genutzt wird. Lies mehr über CAI in Anthropic Forschung.

Die wichtigsten Anwendungen von RLHF

RLHF wird immer wichtiger für Anwendungen, bei denen das Verhalten der KI eng mit menschlichen Werten und Erwartungen übereinstimmen muss:

  • Verbesserung von Chatbots und virtuellen Assistenten: Konversations-KI einladender und hilfreicher machen und weniger anfällig für schädliche, voreingenommene oder unsinnige Antworten machen. Dazu gehört die Feinabstimmung von Modellen wie GPT-4.
  • Inhaltserstellung: Verfeinerung von Modellen für Aufgaben wie Textzusammenfassung oder Texterstellung, um Ergebnisse zu produzieren, die besser den gewünschten Stilen oder Qualitätsstandards entsprechen.
  • Personalisierung von Empfehlungssystemen: Empfehlungssysteme so abstimmen, dass sie Inhalte vorschlagen, die Nutzer/innen wirklich interessant oder nützlich finden, und nicht nur einfache Klickraten.
  • Sicherere autonome Fahrzeuge entwickeln: Die Berücksichtigung menschlicher Vorlieben in Bezug auf den Fahrstil (z.B. Geschmeidigkeit, Durchsetzungsvermögen) neben Sicherheitsregeln.

Beispiele aus der realen Welt

Chatbot-Ausrichtung

Unternehmen wie OpenAI und Anthropic nutzen RLHF ausgiebig, um ihre großen Sprachmodelle zu trainieren (z.B., ChatGPT, Claude). Indem sie Menschen verschiedene KI-generierte Antworten nach ihrer Nützlichkeit und Unschädlichkeit bewerten lassen, trainieren sie Belohnungsmodelle, die die LLMs dazu bringen, sicherere, ethischere und nützlichere Texte zu produzieren. Dies trägt dazu bei, die Risiken zu verringern, die mit schädlichen oder voreingenommenen Ergebnissen verbunden sind, und hält sich an die Grundsätze einer verantwortungsvollen KI-Entwicklung.

Vorlieben für autonomes Fahren

Bei der Entwicklung von KI für selbstfahrende Autos kann RLHF das Feedback von Fahrern oder Beifahrern zum simulierten Fahrverhalten einbeziehen (z. B. Komfort beim Spurwechsel, sanfte Beschleunigung, Entscheidungsfindung in unklaren Situationen). So kann die KI einen Fahrstil erlernen, der nicht nur nach objektiven Kriterien wie Abstand oder Geschwindigkeitsbegrenzung sicher ist, sondern sich auch für den Menschen angenehm und intuitiv anfühlt, was das Vertrauen und die Akzeptanz der Nutzer/innen stärkt. Dies ergänzt traditionelle Computer Vision Aufgaben wie die Objekterkennung, die von Modellen wie Ultralytics YOLO.

Vorteile von RLHF

  • Verbesserte Anpassung: Berücksichtigt direkt die menschlichen Vorlieben und führt so zu KI-Systemen, die den Absichten und Werten der Nutzer/innen besser entsprechen.
  • Umgang mit Subjektivität: Effektiv für Aufgaben, bei denen die Qualität subjektiv und schwer mit einer einfachen Kennzahl zu definieren ist (z. B. Kreativität, Höflichkeit, Sicherheit).
  • Erhöhte Sicherheit: Verringert die Wahrscheinlichkeit, dass KI schädliche, unethische oder voreingenommene Inhalte generiert, indem sie von menschlichen Urteilen über unerwünschte Ergebnisse lernt.
  • Anpassungsfähigkeit: Ermöglicht die Feinabstimmung der Modelle für bestimmte Bereiche oder Nutzergruppen auf der Grundlage von gezieltem Feedback.

Herausforderungen und zukünftige Wege

Trotz ihrer Stärken steht die RLHF vor Herausforderungen:

  • Skalierbarkeit und Kosten: Qualitativ hochwertiges menschliches Feedback zu erhalten, kann teuer und zeitaufwändig sein.
  • Qualität und Verzerrung des Feedbacks: Menschliche Präferenzen können inkonsistent, voreingenommen oder unzureichend sein, was zu einer Verzerrung des Datensatzes im Belohnungsmodell führen kann. Es ist wichtig, dass die Rückmeldungen vielfältig und repräsentativ sind.
  • Reward Hacking: Die KI kann Wege finden, die vom Belohnungsmodell vorhergesagte Belohnung zu maximieren, ohne die beabsichtigte menschliche Präferenz tatsächlich zu erfüllen (bekannt als Reward Hacking oder Specification Gaming).
  • Komplexität: Die Implementierung der gesamten RLHF-Pipeline erfordert Fachwissen in mehreren Bereichen der künstlichen Intelligenz, einschließlich überwachtem Lernen, Verstärkungslernen und der Verwaltung umfangreicher Modelltrainings.

Zukünftige Forschung konzentriert sich auf effizientere Feedback-Methoden (z. B. die Verwendung von KI-Unterstützung bei der Kennzeichnung), die Abschwächung von Verzerrungen, die Verbesserung der Robustheit von Belohnungsmodellen und die Anwendung von RLHF auf eine breitere Palette von KI-Aufgaben. Tools wie die TRL-Bibliothek vonHugging Face erleichtern die Umsetzung von RLHF. Plattformen wie Ultralytics HUB bieten eine Infrastruktur für die Verwaltung von Datensätzen und Trainingsmodellen, die in Zukunft möglicherweise menschliche Feedback-Mechanismen für spezielle Abgleichsaufgaben in Bereichen wie Computer Vision integrieren könnten. Weitere Informationen über den Einstieg in solche Plattformen findest du im Ultralytics HUB Quickstart Guide. Das Verständnis von RLHF wird immer wichtiger für effektive Machine Learning Operations (MLOps) und die Gewährleistung von Transparenz in der KI.

Alles lesen