Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Reward Modeling

Explore la modélisation des récompenses dans l'apprentissage automatique. Découvre comment elle utilise le feedback humain pour aligner les agents IA et les modèles Ultralytics YOLO26 pour une performance plus sûre et plus précise.

La modélisation des récompenses est une technique d'apprentissage automatique utilisée pour enseigner aux systèmes d'intelligence artificielle comment évaluer et hiérarchiser leurs propres comportements en fonction des préférences humaines. Dans les environnements d'apprentissage par renforcement (reinforcement learning) traditionnels, un agent IA (AI agent) apprend en maximisant une fonction de récompense prédéfinie et mathématiquement rigide, comme le score dans un jeu vidéo. Cependant, pour des tâches complexes du monde réel où un « bon » comportement est subjectif ou nuancé — comme rédiger un e-mail poli ou naviguer en toute sécurité dans une intersection — écrire une fonction de récompense parfaite à la main est presque impossible. La modélisation des récompenses résout ce problème en entraînant un réseau de neurones secondaire (le modèle de récompense) pour agir comme un proxy du jugement humain. Ce modèle évalue les sorties de l'IA principale et attribue des scores scalaires, guidant dynamiquement le modèle principal vers des comportements sûrs, utiles et précis.

Link to this sectionComment fonctionne la modélisation des récompenses#

Le pipeline pour construire un modèle de récompense repose fortement sur la collecte de feedback humain de haute qualité.

  • Étiquetage des données et préférences : Les annotateurs humains reçoivent des invites accompagnées de multiples réponses générées par un modèle IA. Les évaluateurs classent ces réponses de la meilleure à la pire en fonction de critères tels que l'utilité, l'absence de danger et la précision. La gestion de ces flux de travail d'annotation à grande échelle peut être traitée de manière transparente en utilisant la plateforme Ultralytics.
  • Entraînement du réseau proxy : Un réseau de neurones spécialisé est entraîné sur ce jeu de données de comparaisons humaines. Grâce à un processus d'optimisation, il apprend à prédire quelle sortie un humain préférerait, en mappant les embeddings d'une action ou d'une réponse textuelle à une valeur de récompense scalaire unique. Tu peux en lire plus sur la création d'architectures de réseaux de neurones dans la documentation de l'API PyTorch.
  • Optimisation de la politique : Le modèle principal utilise le feedback continu du modèle de récompense pour affiner ses actions, en utilisant généralement des algorithmes comme l'optimisation de politique proximale (Proximal Policy Optimization (PPO)). Cette étape aligne de manière itérative la politique du modèle avec l'intention humaine apprise.

Link to this sectionModélisation des récompenses vs RLHF#

Il est important de différencier la modélisation des récompenses de l'apprentissage par renforcement à partir du feedback humain (RLHF). Bien que les deux termes soient fréquemment abordés ensemble, ils ne sont pas synonymes. Le RLHF est le pipeline complet de bout en bout utilisé pour aligner les modèles, englobant le réglage fin supervisé, la collecte de données et les mises à jour de politique. La modélisation des récompenses est un composant spécifique et crucial au sein du pipeline RLHF. Elle sert de pont qui traduit les classements humains discrets en un signal mathématique continu contre lequel l'algorithme d'apprentissage par renforcement peut s'optimiser.

Link to this sectionApplications concrètes#

La modélisation des récompenses joue un rôle déterminant dans le développement de systèmes d'IA modernes qui interagissent directement avec les humains et le monde physique.

  • Grands modèles de langage (LLM) : Les assistants IA conversationnels s'appuient sur des modèles de récompense pour garantir que leurs réponses sont non seulement factuellement correctes, mais aussi polies, pertinentes et exemptes de langage toxique. Les organisations explorant la sécurité de l'IA font continuellement progresser la modélisation des récompenses pour construire des systèmes qui reflètent un alignement de l'IA utile et inoffensif.
  • Véhicules autonomes et robotique : Dans l'automatisation physique, les modèles de récompense aident les robots à comprendre l'étiquette de conduite complexe ou les stratégies de manipulation d'objets. Un système de perception alimenté par Ultralytics YOLO26 pourrait détecter les piétons et les panneaux de signalisation, tandis qu'un modèle de récompense évalue la trajectoire prévue du véhicule, garantissant que l'IA privilégie le confort et la sécurité des passagers plutôt qu'une navigation purement agressive d'un point à un autre.

Link to this sectionImplémentation d'un concept de modèle de récompense de base#

L'exemple Python suivant utilise torch pour démontrer la structure fondamentale d'un modèle de récompense. En pratique, ce réseau apprend à attribuer un score scalaire plus élevé à une sortie qui s'aligne avec les préférences humaines.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Pour une plongée plus approfondie sur la façon dont l'alignement impacte les modèles de base open-source, explore les recherches fondamentales sur l'alignement des modèles de langage avec l'intention humaine et apprends comment les systèmes de vision par ordinateur (CV) exploitent des boucles de feedback avancées pour interagir en toute sécurité avec des environnements dynamiques.

Explore solutions

Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique