Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Reinforcement Learning from Human Feedback (RLHF)

Lerne, wie Reinforcement Learning from Human Feedback (RLHF) KI an menschlichen Werten ausrichtet. Erforsche die Kernkomponenten und die Integration mit Ultralytics YOLO26.

Reinforcement Learning from Human Feedback (RLHF) ist eine fortschrittliche Technik des maschinellen Lernens, die KI-Modelle durch die Einbeziehung von direktem menschlichem Input in den Trainingsprozess verfeinert. Im Gegensatz zum Standard-Supervised Learning, das sich ausschließlich auf statische, beschriftete Datensätze stützt, führt RLHF einen dynamischen Feedback-Mechanismus ein, bei dem menschliche Evaluatoren die Ausgaben des Modells bewerten oder einstufen. Dieser Prozess ermöglicht es der KI, komplexe, subjektive oder nuancierte Ziele zu erfassen – wie „Hilfsbereitschaft“, „Sicherheit“ oder „Kreativität“ –, die mit einer einfachen mathematischen Verlustfunktion schwer zu definieren sind. RLHF ist zu einem Eckpfeiler bei der Entwicklung moderner Large Language Models (LLMs) und generativer KI geworden und stellt sicher, dass leistungsstarke Basismodelle effektiv an menschlichen Werten und der Benutzerabsicht ausgerichtet sind.

Link to this sectionDie Kernkomponenten von RLHF#

Der RLHF-Prozess folgt im Allgemeinen einer dreistufigen Pipeline, die dazu dient, die Lücke zwischen reinen Vorhersagefähigkeiten und menschlich abgestimmtem Verhalten zu schließen.

  1. Supervised Fine-Tuning (SFT): Der Arbeitsablauf beginnt typischerweise mit einem vortrainierten Foundation Model. Entwickler führen ein initiales Fine-Tuning unter Verwendung eines kleineren, hochwertigen Datensatzes von Demonstrationen durch (z. B. von Experten geschriebene Frage-Antwort-Paare). Dieser Schritt etabliert eine Basis-Policy und lehrt das Modell das allgemeine Format und den Ton, die für die Aufgabe erwartet werden.

  2. Reward Model Training: Diese Phase ist das Unterscheidungsmerkmal von RLHF. Menschliche Annotatoren überprüfen mehrere vom Modell generierte Ausgaben für denselben Input und ordnen diese von „am besten“ bis „am schlechtesten“. Dieser Aufwand bei der Daten-Labeling generiert einen Datensatz von Präferenzen. Ein separates Neural Network, das Reward-Modell genannt wird, wird mit diesen Vergleichsdaten trainiert, um einen skalaren Wert vorherzusagen, der das menschliche Urteil widerspiegelt. Die auf der Ultralytics Platform verfügbaren Tools können das Management solcher Annotations-Workflows optimieren.

  3. Reinforcement Learning Optimization: Schließlich agiert das ursprüngliche Modell als AI Agent innerhalb einer Reinforcement-Learning-Umgebung. Unter Verwendung des Reward-Modells als Leitfaden passen Optimierungsalgorithmen wie Proximal Policy Optimization (PPO) die Parameter des Modells an, um den erwarteten Ertrag zu maximieren. Dieser Schritt stimmt die Policy des Modells mit den gelernten menschlichen Präferenzen ab und fördert Verhaltensweisen, die hilfreich und sicher sind, während toxische oder unsinnige Ausgaben entmutigt werden.

Link to this sectionPraxisanwendungen#

RLHF hat sich als entscheidend erwiesen bei der Implementierung von KI-Systemen, die hohe Sicherheitsstandards und ein nuanciertes Verständnis menschlicher Interaktion erfordern.

  • Conversational AI und Chatbots: Die bekannteste Anwendung von RLHF ist die Abstimmung von Chatbots, damit sie hilfreich, harmlos und ehrlich sind. Durch die Bestrafung von Ausgaben, die voreingenommen, faktisch falsch oder gefährlich sind, hilft RLHF, Halluzinationen in LLMs zu mindern und das Risiko von algorithmenbedingter Voreingenommenheit zu reduzieren. Dies stellt sicher, dass virtuelle Assistenten schädliche Anweisungen ablehnen können, während sie für legitime Anfragen nützlich bleiben.
  • Robotik und physische Steuerung: RLHF geht über Text hinaus bis hin zu KI in der Robotik, wo die Definition einer perfekten Belohnungsfunktion für komplexe physische Aufgaben eine Herausforderung darstellt. Zum Beispiel könnte ein Roboter, der lernt, durch ein überfülltes Lagerhaus zu navigieren, Feedback von menschlichen Vorgesetzten darüber erhalten, welche Trajektorien sicher waren und welche Störungen verursacht haben. Dieses Feedback verfeinert die Steuerungs-Policy des Roboters effektiver als einfaches Deep Reinforcement Learning, das nur auf dem Erreichen des Ziels basiert.

Link to this sectionRLHF vs. Standard Reinforcement Learning#

Es ist hilfreich, RLHF vom traditionellen Reinforcement Learning (RL) zu unterscheiden, um seinen spezifischen Nutzen zu verstehen.

  • Standard RL: In traditionellen Szenarien ist die Belohnungsfunktion oft fest durch die Umgebung vorgegeben. Zum Beispiel liefert die Umgebung in einem Videospiel ein klares Signal (+1 für einen Sieg, -1 für eine Niederlage). Der Agent optimiert seine Aktionen innerhalb dieses definierten Markov Decision Process (MDP).
  • RLHF: In vielen realen Szenarien, wie dem Schreiben einer kreativen Geschichte oder höflichem Fahren, ist „Erfolg“ subjektiv. RLHF löst dies, indem die fest programmierte Belohnung durch ein gelerntes Reward-Modell ersetzt wird, das auf menschlichen Präferenzen basiert. Dies ermöglicht die Optimierung abstrakter Konzepte wie „Qualität“ oder „Angemessenheit“, die unmöglich explizit zu programmieren sind.

Link to this sectionIntegration von Wahrnehmung mit Feedbackschleifen#

In visuellen Anwendungen verlassen sich RLHF-abgestimmte Agenten oft auf Computer Vision (CV), um den Zustand ihrer Umgebung wahrzunehmen, bevor sie handeln. Ein robuster Detektor, wie z. B. YOLO26, fungiert als Wahrnehmungsschicht und liefert strukturierte Beobachtungen (z. B. „Hindernis in 3 Metern Entfernung erkannt“), die das Policy-Netzwerk zur Auswahl einer Aktion verwendet.

Das folgende Python-Beispiel illustriert ein vereinfachtes Konzept, bei dem ein YOLO-Modell den Umgebungszustand liefert. In einer vollständigen RLHF-Schleife würde das „Belohnungssignal“ von einem Modell stammen, das auf menschlichem Feedback zu den Entscheidungen des Agenten auf Basis dieser Erkennungsdaten trainiert wurde.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Durch die Kombination leistungsstarker Wahrnehmungsmodelle mit Policies, die durch menschliches Feedback verfeinert wurden, können Entwickler Systeme bauen, die nicht nur intelligent sind, sondern auch streng an Prinzipien der KI-Sicherheit ausgerichtet sind. Laufende Forschung zur skalierbaren Überwachung, wie z. B. Constitutional AI, entwickelt dieses Feld kontinuierlich weiter, mit dem Ziel, den Engpass der großskaligen menschlichen Annotation zu reduzieren und gleichzeitig eine hohe Modellleistung aufrechtzuerhalten.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens