Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Direct Preference Optimization (DPO)

Erfahre, wie Direct Preference Optimization (DPO) die KI-Ausrichtung vereinfacht. Entdecke, wie diese effiziente Methode RLHF ersetzt, um die Modellsicherheit und -leistung zu verbessern.

Direct Preference Optimization (DPO) ist ein stabiles und effizientes algorithmisches Verfahren zur Feinabstimmung von Modellen der künstlichen Intelligenz, das sicherstellt, dass sie mit menschlichen Wünschen, Sicherheitsstandards und ethischen Richtlinien in Einklang stehen. Im Gegensatz zu herkömmlichen Methoden, die komplexe, mehrstufige Pipelines zur Erfassung menschlichen Feedbacks erfordern, vereinfacht DPO den Ausrichtungsprozess mathematisch, indem es das Präferenzlernen direkt als eine Standard-Klassifizierungsaufgabe im maschinellen Lernen behandelt. Indem Entwickler das Modell direkt auf Basis eines Datensatzes menschlicher Präferenzen optimieren – bei dem Annotatoren eine „gewinnende“ Antwort gegenüber einer „verlierenden“ auswählen –, können sie die Hilfsbereitschaft, Ehrlichkeit und Sicherheit von umfangreichen Grundlagenmodellen und modernen generativen KI-Systemen erheblich verbessern.

Link to this sectionWie DPO die Modellausrichtung vereinfacht#

Die primäre Innovation von Direct Preference Optimization liegt in der Entfernung des architektonischen „Vermittlers“. Historisch gesehen war die Ausrichtung eines Large Language Model (LLM) oder eines Vision-Language Model mit einem komplexen Prozess verbunden, der als Reinforcement Learning from Human Feedback (RLHF) bekannt ist. RLHF erfordert das Training eines separaten Belohnungsmodells, um menschliche Bewertungen anzunähern, gefolgt von der Verwendung eines anfälligen Reinforcement-Learning-Algorithmus wie Proximal Policy Optimization, um das Hauptmodell zu aktualisieren.

DPO eliminiert mathematisch die Notwendigkeit für dieses separate Belohnungsmodell. Stattdessen stützt es sich auf eine abgeleitete Verlustfunktion, die die Wahrscheinlichkeit erhöht, „bevorzugte“ Ausgaben zu generieren, während gleichzeitig die Wahrscheinlichkeit von „abgelehnten“ Ausgaben verringert wird. Es verwendet ein Referenzmodell, um die Kullback-Leibler-Divergenz zu begrenzen und sicherzustellen, dass das aktualisierte Modell nicht zu weit von seiner ursprünglichen Trainingsdaten-Verteilung abweicht. Diese mathematische Vereinfachung lässt den Prozess deutlich mehr wie Standard-überwachtes Lernen wirken, was zu einer schnelleren Konvergenz und einem geringeren Speicherverbrauch auf GPU-Hardware führt. Dies reduziert von Natur aus das Risiko eines Modellkollapses und eliminiert eine umfangreiche Hyperparameter-Optimierung.

Link to this sectionAnwendungen in der Praxis#

Direct Preference Optimization verändert grundlegend, wie interaktive KI-Systeme entwickelt und in verschiedenen anspruchsvollen Branchen eingesetzt werden, um eine robuste KI-Sicherheit zu gewährleisten.

  • Verbesserung von Konversationsagenten: Im Bereich von Chatbots und virtuellen Assistenten wird DPO eingesetzt, um Toxizität zu reduzieren und Antworten mit den strengen OpenAI-Sicherheits-Best-Practices sowie Anthropic-Forschung zur KI-Ausrichtung in Einklang zu bringen. Menschliche Annotatoren bewerten zwei Antworten auf eine Aufforderung und markieren die höfliche, faktische Antwort als „ausgewählt“. DPO aktualisiert dann die Modellgewichte, um diesen spezifischen Konversationsstil zu bevorzugen und Halluzinationen zu bestrafen.
  • Verfeinerung von Vision-Language-Modellen: Mit der Weiterentwicklung der Bilderkennung wird von Modellen zunehmend verlangt, menschlichen Bedienern zu erklären, was sie sehen. Bei Anwendungen wie der visuellen Fragenbeantwortung ermöglicht DPO Forschern, die textuelle Ausgabe des Modells mit detaillierten menschlichen Präferenzen in Einklang zu bringen. Wenn ein Benutzer beispielsweise ein von Ultralytics YOLO26 betriebenes Robotiksystem bittet, ein Objekt zu beschreiben, trainiert DPO das Modell darauf, sachliche, prägnante Beschreibungen vagen Interpretationen vorzuziehen und sich eng an strenge KI-Ethik-Richtlinien zu halten.

Link to this sectionDPO in der Praxis#

Die Implementierung von DPO erfordert hochwertige paarweise Daten. Moderne Workflows nutzen umfassende Tools wie die Ultralytics Platform, um diese Datensätze nahtlos zu verwalten und sicherzustellen, dass der Datenannotationsprozess klare „Gewinner“- und „Verlierer“-Beispiele liefert. Du kannst die grundlegende Forschung dahinter im Paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model erkunden oder mehr über Ausrichtung und menschliche Präferenzen von Stanford HAI lesen.

Der folgende Python-Schnipsel demonstriert die grundlegende Datenstruktur, die für eine Verlustberechnung im DPO-Stil erforderlich ist, unter Verwendung von Funktionen, die in der PyTorch API-Referenz zu finden sind.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens