Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modélisation des récompenses

Découvrez la modélisation des récompenses dans l'apprentissage automatique. Apprenez comment elle utilise les commentaires humains pour aligner les agents IA et les modèles Ultralytics afin d'obtenir des performances plus sûres et plus précises.

La modélisation de récompense est une technique d'apprentissage automatique utilisée pour enseigner aux systèmes d'intelligence artificielle comment évaluer et hiérarchiser leurs propres comportements en fonction des préférences humaines. Dans les environnements d'apprentissage par renforcement traditionnels, un agent IA apprend en maximisant une fonction de récompense prédéfinie et mathématiquement rigide, comme le score dans un jeu vidéo. Cependant, pour les tâches complexes du monde réel où le « bon » comportement est subjectif ou nuancé, comme rédiger un e-mail poli ou traverser un carrefour en toute sécurité, il est pratiquement impossible d'écrire à la main une fonction de récompense parfaite. La modélisation de la récompense résout ce problème en entraînant un réseau neuronal secondaire (le modèle de récompense) à agir comme un proxy du jugement humain. Ce modèle évalue les résultats de l'IA principale et attribue des scores scalaires, guidant dynamiquement le modèle principal vers des comportements sûrs, utiles et précis.

Comment fonctionne la modélisation des récompenses

Le processus de création d'un modèle de récompense repose en grande partie sur la collecte de commentaires humains de haute qualité.

  • Étiquetage des données et préférences : Les annotateurs humains reçoivent des invites accompagnées de plusieurs réponses générées par un modèle d'IA. Les évaluateurs classent ces réponses de la meilleure à la pire en fonction de critères tels que l'utilité, l'innocuité et la précision. La gestion de ces flux de travail d'annotation à grande échelle peut être assurée de manière transparente à l'aide de la Ultralytics .
  • Entraînement du réseau proxy : un réseau neuronal spécialisé est entraîné sur cet ensemble de données de comparaisons humaines. Grâce à un processus d'optimisation, il apprend à prédire le résultat qu'un humain préférerait, en mappant les intégrations d'une action ou d'une réponse textuelle à une seule valeur de récompense scalaire. Vous pouvez en savoir plus sur la création d'architectures de réseaux neuronaux dans la documentationPyTorch .
  • Optimisation des politiques : le modèle principal utilise le retour d'information continu du modèle de récompense pour affiner ses actions, en utilisant généralement des algorithmes tels que l' optimisation des politiques proximales (PPO). Cette étape aligne de manière itérative la politique du modèle avec l'intention humaine apprise.

Modélisation de récompense vs RLHF

Il est important de différencier la modélisation des récompenses de l' apprentissage par renforcement à partir du retour d'information humain (RLHF). Bien que ces deux termes soient souvent associés, ils ne sont pas synonymes. Le RLHF est le pipeline complet utilisé pour aligner les modèles, qui englobe le réglage fin supervisé, la collecte de données et les mises à jour des politiques. La modélisation de la récompense est un élément spécifique et crucial du pipeline RLHF. Elle sert de pont qui traduit les classements humains discrets en un signal mathématique continu que l'algorithme d'apprentissage par renforcement peut optimiser.

Applications concrètes

La modélisation des récompenses joue un rôle déterminant dans le développement des systèmes d'IA modernes qui interagissent directement avec les humains et le monde physique .

  • Modèles linguistiques à grande échelle (LLM): Les assistants conversationnels basés sur l'IA s'appuient sur des modèles de récompense pour garantir que leurs réponses sont non seulement factuellement correctes, mais aussi polies, pertinentes et exemptes de langage toxique. Les organisations qui explorent la sécurité de l'IA font continuellement progresser la modélisation des récompenses afin de créer des systèmes qui reflètent un alignement utile et inoffensif de l'IA.
  • Véhicules autonomes et robotique : Dans le domaine de l'automatisation physique, les modèles de récompense aident les robots à comprendre les règles complexes de conduite ou les stratégies de manipulation d'objets. Un système de perception alimenté par Ultralytics peut detect et les panneaux de signalisation, tandis qu'un modèle de récompense évalue la trajectoire prévue du véhicule, garantissant ainsi que l'IA privilégie le confort et la sécurité des passagers plutôt qu'une navigation purement agressive d'un point à un autre.

Mise en œuvre d'un modèle de récompense de base

Python suivant utilise torch pour démontrer la structure fondamentale d'un modèle de récompense. En pratique, ce réseau apprend à attribuer un score scalaire plus élevé à une sortie qui correspond aux préférences humaines.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Pour mieux comprendre l'impact de l'alignement sur les modèles de base open source, explorez les recherches fondamentales sur l' alignement des modèles linguistiques avec l'intention humaine et découvrez comment les systèmes de vision par ordinateur (CV) exploitent des boucles de rétroaction avancées pour interagir en toute sécurité avec des environnements dynamiques.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant