Reward Modeling
Explore la modélisation de récompense en apprentissage automatique. Apprends comment elle utilise les retours humains pour aligner les agents IA et les modèles Ultralytics YOLO26 pour une performance plus sûre et précise.
La modélisation de récompense est une technique d'apprentissage automatique utilisée pour apprendre aux systèmes d'intelligence artificielle comment évaluer et hiérarchiser leurs propres comportements en fonction des préférences humaines. Dans les environnements traditionnels d'apprentissage par renforcement, un agent IA apprend en maximisant une fonction de récompense prédéfinie et mathématiquement rigide, telle que le score dans un jeu vidéo. Cependant, pour des tâches complexes du monde réel où un « bon » comportement est subjectif ou nuancé — comme rédiger un e-mail poli ou naviguer en toute sécurité dans une intersection — écrire une fonction de récompense parfaite à la main est presque impossible. La modélisation de récompense résout ce problème en entraînant un réseau de neurones secondaire (le modèle de récompense) pour agir comme un proxy du jugement humain. Ce modèle évalue les sorties de l'IA principale et attribue des scores scalaires, guidant dynamiquement le modèle principal vers des comportements sûrs, utiles et précis.
Link to this sectionComment fonctionne la modélisation de récompense#
Le pipeline pour construire un modèle de récompense repose fortement sur la collecte de commentaires humains de haute qualité.
- Étiquetage des données et préférences : Des annotateurs humains reçoivent des invites accompagnées de multiples réponses générées par un modèle d'IA. Les évaluateurs classent ces réponses de la meilleure à la pire en fonction de critères tels que l'utilité, l'absence de danger et la précision. La gestion de ces flux de travail d'annotation à grande échelle peut être traitée de manière transparente en utilisant la plateforme Ultralytics.
- Entraînement du réseau proxy : Un réseau de neurones spécialisé est entraîné sur cet ensemble de données de comparaisons humaines. Grâce à un processus d'optimisation, il apprend à prédire quelle sortie un humain préférerait, en mappant les embeddings d'une action ou d'une réponse textuelle à une valeur de récompense scalaire unique. Tu peux en apprendre davantage sur la construction d'architectures de réseaux de neurones dans la documentation de l'API PyTorch.
- Optimisation de la politique : Le modèle principal utilise le retour continu du modèle de récompense pour affiner ses actions, en utilisant généralement des algorithmes comme l'optimisation de politique proximale (PPO). Cette étape aligne itérativement la politique du modèle avec l'intention humaine apprise.
Link to this sectionModélisation de récompense vs RLHF#
Il est important de différencier la modélisation de récompense de l'apprentissage par renforcement à partir de rétroaction humaine (RLHF). Bien que les deux termes soient fréquemment abordés ensemble, ils ne sont pas synonymes. Le RLHF est le pipeline complet de bout en bout utilisé pour aligner les modèles, englobant le réglage fin supervisé, la collecte de données et les mises à jour de politique. La modélisation de récompense est un composant spécifique et crucial au sein du pipeline RLHF. Il sert de pont qui traduit les classements humains discrets en un signal mathématique continu contre lequel l'algorithme d'apprentissage par renforcement peut optimiser.
Link to this sectionApplications concrètes#
La modélisation de récompense joue un rôle déterminant dans le développement des systèmes d'IA modernes qui interagissent directement avec les humains et le monde physique.
- Grands modèles de langage (LLM) : Les assistants conversationnels IA s'appuient sur des modèles de récompense pour garantir que leurs réponses sont non seulement factuellement correctes, mais aussi polies, pertinentes et exemptes de langage toxique. Les organisations explorant la sécurité de l'IA font progresser continuellement la modélisation de récompense pour construire des systèmes qui reflètent un alignement de l'IA utile et inoffensif.
- Véhicules autonomes et robotique : Dans l'automatisation physique, les modèles de récompense aident les robots à comprendre l'étiquette de conduite complexe ou les stratégies de manipulation d'objets. Un système de perception propulsé par Ultralytics YOLO26 pourrait détecter des piétons et des panneaux de signalisation, tandis qu'un modèle de récompense évalue la trajectoire prévue du véhicule, garantissant que l'IA privilégie le confort et la sécurité des passagers plutôt qu'une navigation purement agressive de point à point.
Link to this sectionMise en œuvre d'un concept de modèle de récompense de base#
L'exemple Python suivant utilise torch pour démontrer la structure fondamentale d'un modèle de récompense. En pratique, ce réseau apprend à attribuer un score scalaire plus élevé à une sortie qui s'aligne sur les préférences humaines.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Pour une plongée plus profonde sur la façon dont l'alignement impacte les modèles de base open-source, explore la recherche fondamentale sur l'alignement des modèles de langage avec l'intention humaine et apprends comment les systèmes de vision par ordinateur (CV) tirent parti de boucles de rétroaction avancées pour interagir en toute sécurité avec des environnements dynamiques.






