Découvrez la modélisation des récompenses dans l'apprentissage automatique. Apprenez comment elle utilise les commentaires humains pour aligner les agents IA et les modèles Ultralytics afin d'obtenir des performances plus sûres et plus précises.
La modélisation de récompense est une technique d'apprentissage automatique utilisée pour enseigner aux systèmes d'intelligence artificielle comment évaluer et hiérarchiser leurs propres comportements en fonction des préférences humaines. Dans les environnements d'apprentissage par renforcement traditionnels, un agent IA apprend en maximisant une fonction de récompense prédéfinie et mathématiquement rigide, comme le score dans un jeu vidéo. Cependant, pour les tâches complexes du monde réel où le « bon » comportement est subjectif ou nuancé, comme rédiger un e-mail poli ou traverser un carrefour en toute sécurité, il est pratiquement impossible d'écrire à la main une fonction de récompense parfaite. La modélisation de la récompense résout ce problème en entraînant un réseau neuronal secondaire (le modèle de récompense) à agir comme un proxy du jugement humain. Ce modèle évalue les résultats de l'IA principale et attribue des scores scalaires, guidant dynamiquement le modèle principal vers des comportements sûrs, utiles et précis.
Le processus de création d'un modèle de récompense repose en grande partie sur la collecte de commentaires humains de haute qualité.
Il est important de différencier la modélisation des récompenses de l' apprentissage par renforcement à partir du retour d'information humain (RLHF). Bien que ces deux termes soient souvent associés, ils ne sont pas synonymes. Le RLHF est le pipeline complet utilisé pour aligner les modèles, qui englobe le réglage fin supervisé, la collecte de données et les mises à jour des politiques. La modélisation de la récompense est un élément spécifique et crucial du pipeline RLHF. Elle sert de pont qui traduit les classements humains discrets en un signal mathématique continu que l'algorithme d'apprentissage par renforcement peut optimiser.
La modélisation des récompenses joue un rôle déterminant dans le développement des systèmes d'IA modernes qui interagissent directement avec les humains et le monde physique .
Python suivant utilise torch pour démontrer la structure fondamentale d'un modèle de récompense. En
pratique, ce réseau apprend à attribuer un score scalaire plus élevé à une sortie qui correspond aux préférences humaines.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Pour mieux comprendre l'impact de l'alignement sur les modèles de base open source, explorez les recherches fondamentales sur l' alignement des modèles linguistiques avec l'intention humaine et découvrez comment les systèmes de vision par ordinateur (CV) exploitent des boucles de rétroaction avancées pour interagir en toute sécurité avec des environnements dynamiques.