Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Reinforcement Learning from Human Feedback (RLHF)

Entdecken Sie, wie Reinforcement Learning from Human Feedback (RLHF) die Leistung von KI verbessert, indem es Modelle an menschlichen Werten ausrichtet, um eine sicherere und intelligentere KI zu schaffen.

Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial intelligence models by incorporating direct human input into the training loop. Unlike standard supervised learning, which relies solely on static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness," "safety," or "creativity"—that are difficult to define with a simple mathematical loss function. RLHF has become a cornerstone in the development of modern large language models (LLMs) and generative AI, ensuring that powerful foundation models align effectively with human values and user intent.

Die Kernkomponenten von RLHF

Der RLHF-Prozess folgt im Allgemeinen einem dreistufigen Ablauf, der darauf ausgelegt ist, die Lücke zwischen rohen Vorhersagefähigkeiten und menschlich orientiertem Verhalten zu schließen.

  1. Supervised Fine-Tuning (SFT): Der Arbeitsablauf beginnt in der Regel mit einem vortrainierten Grundlagenmodell. Entwickler führen eine erste Feinabstimmung anhand eines kleineren, hochwertigen Datensatzes mit Demonstrationen durch (z. B. von Experten verfasste Frage-Antwort-Paare). In diesem Schritt wird eine Basisrichtlinie festgelegt, die dem Modell das für die Aufgabe erwartete allgemeine Format und den Tonfall vermittelt.
  2. Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review multiple outputs generated by the model for the same input and rank them from best to worst. This data labeling effort generates a dataset of preferences. A separate neural network, called the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools available on the Ultralytics Platform can streamline the management of such annotation workflows.
  3. Reinforcement Learning Optimization: Finally, the original model acts as an AI agent within a reinforcement learning environment. Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.

Anwendungsfälle in der Praxis

RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of human interaction.

  • Konversations-KI und Chatbots: Die bekannteste Anwendung von RLHF ist die Ausrichtung von Chatbots, damit sie hilfreich, harmlos und ehrlich sind. Durch die Bestrafung von Ausgabewerten, die voreingenommen, sachlich falsch oder gefährlich sind, hilft RLHF dabei, Halluzinationen in LLMs zu mildern und das Risiko algorithmischer Verzerrungen zu verringern. Dadurch wird sichergestellt, dass virtuelle Assistenten schädliche Anweisungen ablehnen können, während sie für legitime Anfragen weiterhin nützlich bleiben.
  • Robotik und physikalische Steuerung: RLHF geht über Text hinaus und erstreckt sich auf KI in der Robotik, wo die Definition einer perfekten Belohnungsfunktion für komplexe physikalische Aufgaben eine Herausforderung darstellt. Ein Roboter, der beispielsweise lernt, sich in einem überfüllten Lagerhaus zu bewegen, kann von menschlichen Aufsichtspersonen Feedback darüber erhalten, welche Bewegungsbahnen sicher waren und welche zu Störungen geführt haben. Dieses Feedback verfeinert die Steuerungsrichtlinien des Roboters effektiver als einfaches tiefes Verstärkungslernen, das ausschließlich auf der Zielerreichung basiert.

RLHF vs. Standard-Verstärkungslernen

Es ist hilfreich, RLHF vom traditionellen verstärkenden Lernen (RL) zu unterscheiden, um seinen spezifischen Nutzen zu verstehen.

  • Standard-RL: In traditionellen Umgebungen ist die Belohnungsfunktion oft fest in der Umgebung programmiert. In einem Videospiel beispielsweise gibt die Umgebung ein klares Signal (+1 für einen Sieg, -1 für eine Niederlage). Der Agent optimiert seine Handlungen innerhalb dieses definierten Markov-Entscheidungsprozesses (MDP).
  • RLHF: In vielen realen Szenarien, wie dem Schreiben einer kreativen Geschichte oder dem höflichen Autofahren, ist „Erfolg“ subjektiv. RLHF löst dieses Problem, indem es die fest programmierte Belohnung durch ein gelerntes Belohnungsmodell ersetzt, das aus menschlichen Präferenzen abgeleitet ist. Dies ermöglicht die Optimierung abstrakter Konzepte wie „Qualität“ oder „Angemessenheit“, die sich nicht explizit programmieren lassen.

Integration von Wahrnehmung mit Rückkopplungsschleifen

In visuellen Anwendungen stützen sich RLHF-ausgerichtete Agenten häufig auf Computervision (CV), um den Zustand ihrer Umgebung wahrzunehmen, bevor sie handeln. Ein robuster Detektor wie YOLO26 fungiert als Wahrnehmungsschicht und liefert strukturierte Beobachtungen (z. B. „Hindernis in 3 Metern Entfernung erkannt”), die das Policy-Netzwerk zur Auswahl einer Aktion verwendet.

The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the agent's decisions based on this detection data.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Durch die Kombination leistungsstarker Wahrnehmungsmodelle mit Richtlinien, die durch menschliches Feedback verfeinert wurden, können Entwickler Systeme erstellen, die nicht nur intelligent sind, sondern auch streng an den Sicherheitsprinzipien für KI ausgerichtet sind. Laufende Forschungen zu skalierbarer Überwachung, wie beispielsweise Constitutional AI, treiben die Entwicklung in diesem Bereich weiter voran, mit dem Ziel, den Engpass bei der groß angelegten menschlichen Annotation zu verringern und gleichzeitig eine hohe Modellleistung aufrechtzuerhalten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten