Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Belohnungsmodellierung

Entdecken Sie das Belohnungsmodell im maschinellen Lernen. Erfahren Sie, wie es menschliches Feedback nutzt, um KI-Agenten und Ultralytics Modelle aufeinander abzustimmen und so eine sicherere und genauere Leistung zu erzielen.

Belohnungsmodellierung ist eine Technik des maschinellen Lernens, mit der künstliche Intelligenzsysteme lernen, ihr eigenes Verhalten anhand menschlicher Präferenzen zu bewerten und zu priorisieren. In traditionellen Verstärkungslernumgebungen lernt ein KI-Agent, indem er eine vordefinierte, mathematisch starre Belohnungsfunktion maximiert, wie beispielsweise die Punktzahl in einem Videospiel. Bei komplexen Aufgaben in der realen Welt, bei denen „gutes” Verhalten subjektiv oder nuanciert ist – wie beispielsweise das Verfassen einer höflichen E-Mail oder das sichere Überqueren einer Kreuzung –, ist es jedoch nahezu unmöglich, eine fehlerfreie Belohnungsfunktion von Hand zu schreiben. Die Belohnungsmodellierung löst dieses Problem, indem sie ein sekundäres neuronales Netzwerk (das Belohnungsmodell) trainiert, das als Proxy für menschliches Urteilsvermögen fungiert. Dieses Modell bewertet die Ergebnisse der primären KI und weist skalare Punktzahlen zu, wodurch es das Hauptmodell dynamisch zu sicheren, hilfreichen und präzisen Verhaltensweisen führt.

Wie Belohnungsmodellierung funktioniert

Die Pipeline für die Erstellung eines Belohnungsmodells hängt stark von der Sammlung hochwertiger Rückmeldungen durch Menschen ab.

  • Datenkennzeichnung und Präferenzen: Menschliche Annotatoren erhalten neben mehreren von einem KI-Modell generierten Antworten auch Aufforderungen. Die Bewerter ordnen diese Antworten anhand von Kriterien wie Nützlichkeit, Unbedenklichkeit und Genauigkeit von der besten zur schlechtesten Antwort. Die Verwaltung dieser groß angelegten Annotations-Workflows kann nahtlos über die Ultralytics erfolgen.
  • Training des Proxy-Netzwerks: Ein spezialisiertes neuronales Netzwerk wird anhand dieses Datensatzes menschlicher Vergleiche trainiert. Durch einen Optimierungsprozess lernt es, vorherzusagen, welche Ausgabe ein Mensch bevorzugen würde, indem es die Einbettungen einer Aktion oder Textantwort einem einzelnen skalaren Belohnungswert zuordnet. Weitere Informationen zum Aufbau neuronaler Netzwerkarchitekturen finden Sie in der PyTorch .
  • Richtlinienoptimierung: Das Primärmodell nutzt das kontinuierliche Feedback aus dem Belohnungsmodell, um seine Aktionen zu verfeinern, wobei in der Regel Algorithmen wie Proximal Policy Optimization (PPO) zum Einsatz kommen. In diesem Schritt wird die Richtlinie des Modells iterativ an die erlernten menschlichen Absichten angepasst.

Belohnungsmodellierung vs. RLHF

Es ist wichtig, die Belohnungsmodellierung vom Reinforcement Learning from Human Feedback (RLHF) zu unterscheiden. Obwohl die beiden Begriffe häufig zusammen diskutiert werden, sind sie nicht synonym. RLHF ist die umfassende End-to-End-Pipeline, die zur Ausrichtung von Modellen verwendet wird und die überwachte Feinabstimmung, Datenerfassung und Richtlinienaktualisierungen umfasst. Die Belohnungsmodellierung ist eine spezifische, entscheidende Komponente innerhalb der RLHF-Pipeline. Sie dient als Brücke, die diskrete menschliche Bewertungen in ein kontinuierliches mathematisches Signal übersetzt, anhand dessen der Algorithmus für verstärktes Lernen Optimierungen vornehmen kann.

Anwendungsfälle in der Praxis

Belohnungsmodellierung ist maßgeblich an der Entwicklung moderner KI-Systeme beteiligt, die direkt mit Menschen und der physischen Welt interagieren.

  • Große Sprachmodelle (LLMs): Konversationsfähige KI-Assistenten stützen sich auf Belohnungsmodelle, um sicherzustellen, dass ihre Antworten nicht nur sachlich korrekt, sondern auch höflich, relevant und frei von toxischer Sprache sind. Organisationen, die sich mit KI-Sicherheit befassen, entwickeln Belohnungsmodelle kontinuierlich weiter, um Systeme zu schaffen, die eine hilfreiche und harmlose KI-Ausrichtung widerspiegeln.
  • Autonome Fahrzeuge und Robotik: In der physischen Automatisierung helfen Belohnungsmodelle Robotern dabei, komplexe Fahrregeln oder Strategien zur Objektmanipulation zu verstehen. Ein Wahrnehmungssystem, das mit Ultralytics betrieben wird, kann detect und Verkehrszeichen detect , während ein Belohnungsmodell die geplante Fahrbahn des Fahrzeugs bewertet und sicherstellt, dass die KI den Komfort und die Sicherheit der Passagiere vor einer rein aggressiven Punkt-zu-Punkt-Navigation priorisiert.

Implementierung eines grundlegenden Belohnungsmodells

Das folgende Python verwendet torch um die grundlegende Struktur eines Belohnungsmodells zu veranschaulichen. In der Praxis lernt dieses Netzwerk, einer Ausgabe, die den menschlichen Präferenzen entspricht, eine höhere skalare Punktzahl zuzuweisen.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Um einen tieferen Einblick zu erhalten, wie sich die Ausrichtung auf Open-Source-Grundlagenmodelle auswirkt, erkunden Sie die Grundlagenforschung zur Ausrichtung von Sprachmodellen auf menschliche Absichten und erfahren Sie, wie Computer-Vision-Systeme (CV) fortschrittliche Feedbackschleifen nutzen, um sicher mit dynamischen Umgebungen zu interagieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten