Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Reinforcement Learning from Human Feedback (RLHF)

Entdecken Sie, wie Reinforcement Learning from Human Feedback (RLHF) die Leistung von KI verbessert, indem es Modelle an menschlichen Werten ausrichtet, um eine sicherere und intelligentere KI zu schaffen.

Verstärkungslernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) ist ein hochentwickeltes Rahmenwerk maschinellen Lernens (ML), das die Künstliche Intelligenz (KI) Systeme mit menschlichen Werten, Präferenzen und Absichten in Einklang bringt. Im Gegensatz zum traditionellen überwachtem Lernen, bei dem Modelle trainiert werden, um statische Datensätze zu replizieren, führt RLHF eine dynamische Feedbackschleife ein, in der menschliche Bewerter die Modellausgaben bewerten. Diese Bewertungsdaten werden verwendet, um ein "Belohnungsmodell" zu trainieren, das anschließend die KI dazu anleitet, hilfreichere, sicherere und genauere Antworten zu generieren, sichere und genaue Antworten zu generieren. Diese Technik hat sich als wesentlich für die Entwicklung moderner großer Sprachmodelle (LLMs) und generativen KI als wesentlich erwiesen, da sie sicherstellt, dass leistungsstarke Modelle im Einklang mit den Erwartungen der Nutzer handeln und nicht nur statistisch das nächste Wort oder Pixel vorhersagen.

Der RLHF-Arbeitsablauf

Der Prozess der Anpassung eines Modells mittels RLHF folgt im Allgemeinen einer dreistufigen Pipeline, die die Kluft zwischen roher Vorhersagefähigkeit und nuancierter menschlicher Interaktion überbrückt.

  1. Überwachtes Fine-Tuning (SFT): Der Prozess beginnt in der Regel mit einem vortrainierten Grundmodell. Die Entwickler verwenden Feinabstimmung auf einem kleineren, hochwertigen Datensatz von kuratierten Beispielen (z. B. Dialoge oder Demonstrationen), um dem Modell das grundlegende Format der gewünschten Aufgabe beizubringen.
  2. Belohnungsmodell-Training: Dies ist der Kern von RLHF. Menschliche Annotatoren überprüfen mehrere vom Modell die vom Modell für dieselbe Eingabe erzeugt wurden, und stufen sie von der besten zur schlechtesten ein. Dieser Datenbeschriftungsprozess erzeugt einen Datensatz von Präferenzen. Ein separates neuronales Netz, bekannt als Belohnungsmodell, wird auf diesen Vergleichsdaten trainiert, um eine skalare Belohnungsbewertung vorherzusagen, die das menschliche Urteil nachahmt.
  3. Optimierung durch Reinforcement Learning: Das ursprüngliche Modell wird effektiv zu einem KI-Agent in einer Umgebung mit Verstärkungslernen. Unter Verwendung von Belohnungsmodells als Leitfaden können Algorithmen wie Proximale Strategieoptimierung (PPO) passen die Parameter des Agenten an, um die erwartete Belohnung zu maximieren. Durch diesen Schritt wird die Politik des Modells grundlegend geändert, um Aktionen - wie die höfliche Ablehnung schädlicher Anfragen - zu bevorzugen, die mit den erlernten menschlichen Präferenzen übereinstimmen.

RLHF vs. Standard-Verstärkungslernen

Bei beiden Ansätzen geht es zwar um die Maximierung einer Belohnung, aber die Quelle dieser Belohnung unterscheidet sich erheblich.

  • Standard-Verstärkungslernen (RL): Im traditionellen RL ist die Belohnungsfunktion oft fest codiert oder mathematisch durch die Umgebung definiert. Bei einer Schachpartie zum Beispiel liefert die Umgebung ein klares Signal: +1 für einen Sieg, -1 für eine Niederlage. Der Agent lernt durch Versuch und Irrtum innerhalb dieser definierten Markov-Entscheidungsprozess (MDP).
  • RLHF: Bei vielen realen Aufgaben, wie dem Verfassen einer Zusammenfassung oder dem höflichen Fahren eines Autos, ist eine mathematische Formel für "Erfolg" unmöglich explizit zu definieren. RLHF löst dieses Problem, indem es die fest kodierte Belohnung durch ein erlerntes Belohnungsmodell ersetzt, das aus menschlichem Feedback abgeleitet wird. Dies ermöglicht die Optimierung von abstrakten Konzepten wie "Hilfsbereitschaft" oder "Sicherheit", die schwer direkt zu programmieren sind.

Anwendungsfälle in der Praxis

RLHF hat die Art und Weise verändert, wie KI-Systeme mit der Welt interagieren, insbesondere in Bereichen, die hohe Sicherheitsstandards und ein differenziertes Verständnis erfordern.

  • Konversationelle KI und Chatbots: Der prominenteste Einsatz von RLHF ist die Ausrichtung von Chatbots auf hilfreich und harmlos zu sein. Durch die Bestrafung von toxischen, voreingenommenen oder faktisch falschen Ausgaben hilft RLHF, die Halluzinationen in LLMs und reduziert algorithmische Verzerrungen. Es stellt sicher, dass Assistenten gefährliche Anweisungen verweigern können, während sie für legitime Abfragen nützlich bleiben.
  • Robotik und autonome Agenten: Über den Text hinaus wird RLHF in der Robotik eingesetzt, um Agenten komplexe physische Aufgaben beizubringen. Unter Ein Roboterarm, der lernt, zerbrechliche Gegenstände zu greifen, könnte beispielsweise von menschlichen Betreuern Rückmeldungen darüber erhalten, welche Greifversuche welche Greifversuche sicher waren und welche eindeutig fehlgeschlagen sind. Dieses Feedback verfeinert die Steuerungsstrategie effektiver als einfache Deep Reinforcement Learning, das nur auf der Erfüllung der Aufgabe basiert. Ähnliche Methoden unterstützen autonome Fahrzeuge beim Erlernen von Fahr Fahrverhalten zu lernen, das sich für menschliche Passagiere natürlich anfühlt.

Integration der Wahrnehmung mit RLHF

Bei visuellen Anwendungen stützen sich RLHF-Agenten häufig auf Computer Vision (CV), um den Zustand ihrer Umgebung ihrer Umgebung zu erkennen. Ein robuster Detektor, wie z.B. YOLO11kann als "Augen" des Systems fungieren und strukturierte Beobachtungen liefern (z. B. "Fußgänger links erkannt Fußgänger auf der linken Seite"), die das Policy-Netzwerk zur Auswahl einer Aktion verwendet.

Das folgende Beispiel veranschaulicht ein vereinfachtes Konzept, bei dem ein YOLO den Umweltzustand für einen Agenten liefert. In einer vollständigen RLHF-Schleife würde die "Belohnung" durch ein Modell bestimmt werden, das auf der Grundlage menschlicher Präferenzen hinsichtlich des Vertrauens oder der Genauigkeit des Agenten.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Durch die Kombination von leistungsstarken Wahrnehmungsmodellen mit Richtlinien, die durch menschliches Feedback abgestimmt werden, können Entwickler Systeme entwickeln, die nicht nur intelligent sind, sondern auch rigoros auf KI-Sicherheit. Die Forschung im Bereich der skalierbaren Aufsicht, wie z. B. Konstitutionelle KI, entwickelt diesen Bereich weiter und zielt darauf ab, die starke Abhängigkeit von menschlichen Kommentaren in großem Maßstab zu verringern.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten