Reward Modeling
Explore la modélisation des récompenses dans l'apprentissage automatique. Découvre comment elle utilise le feedback humain pour aligner les agents IA et les modèles Ultralytics YOLO26 pour une performance plus sûre et plus précise.
La modélisation des récompenses est une technique d'apprentissage automatique utilisée pour enseigner aux systèmes d'intelligence artificielle comment évaluer et hiérarchiser leurs propres comportements en fonction des préférences humaines. Dans les environnements d'apprentissage par renforcement (reinforcement learning) traditionnels, un agent IA (AI agent) apprend en maximisant une fonction de récompense prédéfinie et mathématiquement rigide, comme le score dans un jeu vidéo. Cependant, pour des tâches complexes du monde réel où un « bon » comportement est subjectif ou nuancé — comme rédiger un e-mail poli ou naviguer en toute sécurité dans une intersection — écrire une fonction de récompense parfaite à la main est presque impossible. La modélisation des récompenses résout ce problème en entraînant un réseau de neurones secondaire (le modèle de récompense) pour agir comme un proxy du jugement humain. Ce modèle évalue les sorties de l'IA principale et attribue des scores scalaires, guidant dynamiquement le modèle principal vers des comportements sûrs, utiles et précis.
Link to this sectionComment fonctionne la modélisation des récompenses#
Le pipeline pour construire un modèle de récompense repose fortement sur la collecte de feedback humain de haute qualité.
- Étiquetage des données et préférences : Les annotateurs humains reçoivent des invites accompagnées de multiples réponses générées par un modèle IA. Les évaluateurs classent ces réponses de la meilleure à la pire en fonction de critères tels que l'utilité, l'absence de danger et la précision. La gestion de ces flux de travail d'annotation à grande échelle peut être traitée de manière transparente en utilisant la plateforme Ultralytics.
- Entraînement du réseau proxy : Un réseau de neurones spécialisé est entraîné sur ce jeu de données de comparaisons humaines. Grâce à un processus d'optimisation, il apprend à prédire quelle sortie un humain préférerait, en mappant les embeddings d'une action ou d'une réponse textuelle à une valeur de récompense scalaire unique. Tu peux en lire plus sur la création d'architectures de réseaux de neurones dans la documentation de l'API PyTorch.
- Optimisation de la politique : Le modèle principal utilise le feedback continu du modèle de récompense pour affiner ses actions, en utilisant généralement des algorithmes comme l'optimisation de politique proximale (Proximal Policy Optimization (PPO)). Cette étape aligne de manière itérative la politique du modèle avec l'intention humaine apprise.
Link to this sectionModélisation des récompenses vs RLHF#
Il est important de différencier la modélisation des récompenses de l'apprentissage par renforcement à partir du feedback humain (RLHF). Bien que les deux termes soient fréquemment abordés ensemble, ils ne sont pas synonymes. Le RLHF est le pipeline complet de bout en bout utilisé pour aligner les modèles, englobant le réglage fin supervisé, la collecte de données et les mises à jour de politique. La modélisation des récompenses est un composant spécifique et crucial au sein du pipeline RLHF. Elle sert de pont qui traduit les classements humains discrets en un signal mathématique continu contre lequel l'algorithme d'apprentissage par renforcement peut s'optimiser.
Link to this sectionApplications concrètes#
La modélisation des récompenses joue un rôle déterminant dans le développement de systèmes d'IA modernes qui interagissent directement avec les humains et le monde physique.
- Grands modèles de langage (LLM) : Les assistants IA conversationnels s'appuient sur des modèles de récompense pour garantir que leurs réponses sont non seulement factuellement correctes, mais aussi polies, pertinentes et exemptes de langage toxique. Les organisations explorant la sécurité de l'IA font continuellement progresser la modélisation des récompenses pour construire des systèmes qui reflètent un alignement de l'IA utile et inoffensif.
- Véhicules autonomes et robotique : Dans l'automatisation physique, les modèles de récompense aident les robots à comprendre l'étiquette de conduite complexe ou les stratégies de manipulation d'objets. Un système de perception alimenté par Ultralytics YOLO26 pourrait détecter les piétons et les panneaux de signalisation, tandis qu'un modèle de récompense évalue la trajectoire prévue du véhicule, garantissant que l'IA privilégie le confort et la sécurité des passagers plutôt qu'une navigation purement agressive d'un point à un autre.
Link to this sectionImplémentation d'un concept de modèle de récompense de base#
L'exemple Python suivant utilise torch pour démontrer la structure fondamentale d'un modèle de récompense. En pratique, ce réseau apprend à attribuer un score scalaire plus élevé à une sortie qui s'aligne avec les préférences humaines.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Pour une plongée plus approfondie sur la façon dont l'alignement impacte les modèles de base open-source, explore les recherches fondamentales sur l'alignement des modèles de langage avec l'intention humaine et apprends comment les systèmes de vision par ordinateur (CV) exploitent des boucles de feedback avancées pour interagir en toute sécurité avec des environnements dynamiques.






