Entdecken Sie, wie Reinforcement Learning from Human Feedback (RLHF) die Leistung von KI verbessert, indem es Modelle an menschlichen Werten ausrichtet, um eine sicherere und intelligentere KI zu schaffen.
Verstärkungslernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) ist ein hochentwickeltes Rahmenwerk maschinellen Lernens (ML), das die Künstliche Intelligenz (KI) Systeme mit menschlichen Werten, Präferenzen und Absichten in Einklang bringt. Im Gegensatz zum traditionellen überwachtem Lernen, bei dem Modelle trainiert werden, um statische Datensätze zu replizieren, führt RLHF eine dynamische Feedbackschleife ein, in der menschliche Bewerter die Modellausgaben bewerten. Diese Bewertungsdaten werden verwendet, um ein "Belohnungsmodell" zu trainieren, das anschließend die KI dazu anleitet, hilfreichere, sicherere und genauere Antworten zu generieren, sichere und genaue Antworten zu generieren. Diese Technik hat sich als wesentlich für die Entwicklung moderner großer Sprachmodelle (LLMs) und generativen KI als wesentlich erwiesen, da sie sicherstellt, dass leistungsstarke Modelle im Einklang mit den Erwartungen der Nutzer handeln und nicht nur statistisch das nächste Wort oder Pixel vorhersagen.
Der Prozess der Anpassung eines Modells mittels RLHF folgt im Allgemeinen einer dreistufigen Pipeline, die die Kluft zwischen roher Vorhersagefähigkeit und nuancierter menschlicher Interaktion überbrückt.
Bei beiden Ansätzen geht es zwar um die Maximierung einer Belohnung, aber die Quelle dieser Belohnung unterscheidet sich erheblich.
RLHF hat die Art und Weise verändert, wie KI-Systeme mit der Welt interagieren, insbesondere in Bereichen, die hohe Sicherheitsstandards und ein differenziertes Verständnis erfordern.
Bei visuellen Anwendungen stützen sich RLHF-Agenten häufig auf Computer Vision (CV), um den Zustand ihrer Umgebung ihrer Umgebung zu erkennen. Ein robuster Detektor, wie z.B. YOLO11kann als "Augen" des Systems fungieren und strukturierte Beobachtungen liefern (z. B. "Fußgänger links erkannt Fußgänger auf der linken Seite"), die das Policy-Netzwerk zur Auswahl einer Aktion verwendet.
Das folgende Beispiel veranschaulicht ein vereinfachtes Konzept, bei dem ein YOLO den Umweltzustand für einen Agenten liefert. In einer vollständigen RLHF-Schleife würde die "Belohnung" durch ein Modell bestimmt werden, das auf der Grundlage menschlicher Präferenzen hinsichtlich des Vertrauens oder der Genauigkeit des Agenten.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Durch die Kombination von leistungsstarken Wahrnehmungsmodellen mit Richtlinien, die durch menschliches Feedback abgestimmt werden, können Entwickler Systeme entwickeln, die nicht nur intelligent sind, sondern auch rigoros auf KI-Sicherheit. Die Forschung im Bereich der skalierbaren Aufsicht, wie z. B. Konstitutionelle KI, entwickelt diesen Bereich weiter und zielt darauf ab, die starke Abhängigkeit von menschlichen Kommentaren in großem Maßstab zu verringern.