Entdecken Sie das Belohnungsmodell im maschinellen Lernen. Erfahren Sie, wie es menschliches Feedback nutzt, um KI-Agenten und Ultralytics Modelle aufeinander abzustimmen und so eine sicherere und genauere Leistung zu erzielen.
Belohnungsmodellierung ist eine Technik des maschinellen Lernens, mit der künstliche Intelligenzsysteme lernen, ihr eigenes Verhalten anhand menschlicher Präferenzen zu bewerten und zu priorisieren. In traditionellen Verstärkungslernumgebungen lernt ein KI-Agent, indem er eine vordefinierte, mathematisch starre Belohnungsfunktion maximiert, wie beispielsweise die Punktzahl in einem Videospiel. Bei komplexen Aufgaben in der realen Welt, bei denen „gutes” Verhalten subjektiv oder nuanciert ist – wie beispielsweise das Verfassen einer höflichen E-Mail oder das sichere Überqueren einer Kreuzung –, ist es jedoch nahezu unmöglich, eine fehlerfreie Belohnungsfunktion von Hand zu schreiben. Die Belohnungsmodellierung löst dieses Problem, indem sie ein sekundäres neuronales Netzwerk (das Belohnungsmodell) trainiert, das als Proxy für menschliches Urteilsvermögen fungiert. Dieses Modell bewertet die Ergebnisse der primären KI und weist skalare Punktzahlen zu, wodurch es das Hauptmodell dynamisch zu sicheren, hilfreichen und präzisen Verhaltensweisen führt.
Die Pipeline für die Erstellung eines Belohnungsmodells hängt stark von der Sammlung hochwertiger Rückmeldungen durch Menschen ab.
Es ist wichtig, die Belohnungsmodellierung vom Reinforcement Learning from Human Feedback (RLHF) zu unterscheiden. Obwohl die beiden Begriffe häufig zusammen diskutiert werden, sind sie nicht synonym. RLHF ist die umfassende End-to-End-Pipeline, die zur Ausrichtung von Modellen verwendet wird und die überwachte Feinabstimmung, Datenerfassung und Richtlinienaktualisierungen umfasst. Die Belohnungsmodellierung ist eine spezifische, entscheidende Komponente innerhalb der RLHF-Pipeline. Sie dient als Brücke, die diskrete menschliche Bewertungen in ein kontinuierliches mathematisches Signal übersetzt, anhand dessen der Algorithmus für verstärktes Lernen Optimierungen vornehmen kann.
Belohnungsmodellierung ist maßgeblich an der Entwicklung moderner KI-Systeme beteiligt, die direkt mit Menschen und der physischen Welt interagieren.
Das folgende Python verwendet torch um die grundlegende Struktur eines Belohnungsmodells zu veranschaulichen. In der
Praxis lernt dieses Netzwerk, einer Ausgabe, die den menschlichen Präferenzen entspricht, eine höhere skalare Punktzahl zuzuweisen.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Um einen tieferen Einblick zu erhalten, wie sich die Ausrichtung auf Open-Source-Grundlagenmodelle auswirkt, erkunden Sie die Grundlagenforschung zur Ausrichtung von Sprachmodellen auf menschliche Absichten und erfahren Sie, wie Computer-Vision-Systeme (CV) fortschrittliche Feedbackschleifen nutzen, um sicher mit dynamischen Umgebungen zu interagieren.