Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Direct Preference Optimization

Apprends comment le Direct Preference Optimization (DPO) simplifie l'alignement de l'IA. Découvre comment améliorer la sécurité et les performances des modèles plus efficacement qu'avec le RLHF traditionnel.

Le Direct Preference Optimization (DPO) est une technique algorithmique stable et efficace utilisée pour affiner les modèles d'intelligence artificielle, en garantissant spécifiquement qu'ils s'alignent sur les désirs humains et les normes de sécurité. Contrairement aux méthodes d'apprentissage par renforcement traditionnelles qui nécessitent une modélisation complexe des récompenses, le DPO simplifie le processus d'alignement en traitant le problème d'apprentissage des préférences comme une tâche de classification. En optimisant directement le modèle à partir d'un jeu de données de préférences humaines — où les annotateurs choisissent une réponse "gagnante" par rapport à une réponse "perdante" — les développeurs peuvent considérablement améliorer l'utilité, l'honnêteté et la sécurité des foundation models et des systèmes d'generative AI. Cette approche a connu un immense succès en 2024 et 2025 pour sa capacité à obtenir des résultats de pointe avec beaucoup moins de frais de calcul.

Link to this sectionComment la DPO simplifie l'alignement des modèles#

L'innovation principale du Direct Preference Optimization réside dans la suppression de l'"intermédiaire" présent dans les anciens pipelines d'alignement. Historiquement, aligner un Large Language Model (LLM) ou un Vision-Language Model impliquait un processus en plusieurs étapes connu sous le nom de Reinforcement Learning from Human Feedback (RLHF). Le RLHF nécessite l'entraînement d'un modèle de récompense distinct pour approximer le scoring humain, suivi de l'utilisation d'un algorithme sujet à l'instabilité comme PPO (Proximal Policy Optimization) pour mettre à jour le modèle principal.

DPO mathematically eliminates the need for this separate reward model. Instead, it uses a derived loss function that increases the likelihood of generating "preferred" outputs while decreasing the likelihood of "rejected" ones. This relies on a reference model to ensure the updated model does not drift too far from its original training data distribution. This mathematical simplification makes the process behave much closer to standard supervised learning, resulting in faster convergence and lower memory usage on GPU hardware.

Link to this sectionDistinction par rapport au RLHF#

Bien que le DPO et le RLHF partagent l'objectif de AI Safety et d'alignement, leur mise en œuvre diffère considérablement :

  • Complexité : Le RLHF implique de maintenir simultanément plusieurs modèles (acteur, critique, modèle de récompense, modèle de référence) pendant l'entraînement. Le DPO ne nécessite que le modèle en cours d'entraînement et un modèle de référence gelé.
  • Stabilité : L'apprentissage par renforcement est notoirement sensible au hyperparameter tuning. Le DPO fonctionne généralement avec la stabilité d'une tâche de classification standard, réduisant le risque de model collapse.
  • Efficacité : En supprimant les étapes d'inférence du modèle de récompense, le DPO réduit la charge computationnelle, permettant aux organisations d'aligner des modèles plus grands sur des clusters plus petits.

Link to this sectionApplications concrètes#

Le Direct Preference Optimization est en train de remodeler la manière dont les systèmes d'IA interactifs sont construits à travers diverses industries.

Link to this sectionAmélioration des agents conversationnels#

Dans le domaine des chatbots et des assistants virtuels, le DPO est utilisé pour réduire la toxicité et améliorer l'exactitude factuelle. Les développeurs organisent des jeux de données où un annotateur humain examine deux réponses à une invite — l'une hallucinée ou impolie, et l'autre exacte et polie. L'humain marque la réponse polie comme "choisie". Le DPO met ensuite à jour les model weights pour favoriser le style choisi. C'est crucial pour déployer des agents de service client qui adhèrent à des directives strictes en matière d'AI Ethics.

Link to this sectionRaffinage des modèles vision-langage#

À mesure que la vision par ordinateur évolue, les modèles sont de plus en plus amenés à expliquer ce qu'ils voient. Pour des applications comme le image captioning ou la réponse aux questions visuelles, le DPO permet aux chercheurs d'aligner la sortie textuelle du modèle avec des préférences humaines détaillées. Par exemple, si un utilisateur demande à un security system de "décrire l'intrus", le DPO peut entraîner le modèle à donner la priorité aux descriptions factuelles (par exemple, "chemise rouge, chapeau bleu") plutôt qu'à celles poétiques ou vagues, améliorant l'utilité du computer vision system.

Link to this sectionLe DPO dans le flux de travail moderne de l'IA#

La mise en œuvre du DPO nécessite des données par paires de haute qualité. Les flux de travail modernes utilisent souvent des outils comme la Ultralytics Platform pour gérer les jeux de données, garantissant que le processus de data annotation produit des exemples "gagnants" et "perdants" clairs. Bien que le DPO ait été lancé pour le texte, ses principes sont de plus en plus appliqués pour optimiser les object detection architectures et d'autres modalités en encadrant les métriques de qualité sous forme de paires de préférences.

L'extrait Python suivant utilisant torch démontre la structure de données fondamentale requise pour un calcul de perte de type DPO. Il montre comment les réponses "choisies" et "rejetées" sont préparées par lots, un concept essentiel pour l'model optimization moderne.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

En exploitant des techniques comme le DPO, les développeurs peuvent repousser les limites de performance de modèles tels que Ultralytics YOLO26, garantissant que les décisions automatisées ne sont pas seulement précises, mais aussi alignées avec l'intention humaine. Ceci est vital pour les environnements à enjeux élevés tels que les autonomous vehicles et l'medical image analysis, où la fiabilité est primordiale.

Link to this sectionRessources externes#

Explore solutions

Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique