Apprentissage par renforcement à partir de feedback humain (RLHF)
Découvrez comment l'apprentissage par renforcement à partir de feedback humain (RLHF) affine les performances de l'IA en alignant les modèles sur les valeurs humaines pour une IA plus sûre et plus intelligente.
L'apprentissage par renforcement à partir du feedback humain (RLHF) est un cadre sophistiqué d'apprentissage
l'apprentissage machine (ML) qui aligne les systèmes d'intelligence
systèmes d'intelligence artificielle (IA)
avec les valeurs, les préférences et les intentions humaines. Contrairement à l'apprentissage
l'apprentissage supervisé traditionnel, qui forme des modèles
de données statiques, la RLHF introduit une boucle de rétroaction dynamique dans laquelle des évaluateurs humains classent les résultats des modèles. Ces données de
Ces données de classement sont utilisées pour former un "modèle de récompense", qui guide ensuite l'IA pour qu'elle génère des réponses plus utiles, plus sûres et plus précises,
plus utiles, plus sûres et plus précises. Cette technique s'est avérée essentielle pour le développement de grands modèles de langage (LLM) modernes.
grands modèles de langage (LLM) et de l'IA
et de l'IA générative, en garantissant que les
agissent conformément aux attentes de l'utilisateur et ne se contentent pas de prédire statistiquement le prochain mot ou pixel.
Le flux de travail de la RLHF
Le processus d'alignement d'un modèle via RLHF suit généralement un processus en trois étapes qui comble le fossé entre la capacité prédictive brute et l'interaction humaine nuancée.
capacité prédictive brute et l'interaction humaine nuancée.
-
Le réglage fin supervisé (SFT) : Le processus commence généralement par un modèle de base pré-entraîné.
modèle de base pré-entraîné. Les développeurs utilisent
sur un ensemble de données plus petit et de haute qualité d'exemples
(tels que des dialogues ou des démonstrations) pour enseigner au modèle le format de base de la tâche souhaitée.
-
Formation au modèle de récompense : C'est le cœur de la RLHF. Des annotateurs humains examinent plusieurs sorties générées par le modèle pour la même entrée et les classent de la meilleure à la pire.
par le modèle pour la même entrée et les classent de la meilleure à la pire. Ce processus d'étiquetage des données
Ce processus d'étiquetage des données crée un ensemble de préférences.
préférences. Un réseau neuronal distinct, appelé
appelé modèle de récompense, est entraîné sur ces données de comparaison pour prédire un score de récompense scalaire qui imite le jugement humain.
-
Optimisation par apprentissage par renforcement : Le modèle original devient effectivement un
agent d'intelligence artificielle dans un
dans un environnement d'apprentissage par renforcement. En utilisant
le modèle de récompense comme guide, des algorithmes tels que l'optimisation de la politique proximale (PPO).
Optimisation de la politique proximale (PPO)
ajustent les paramètres de l'agent pour maximiser la récompense attendue. Cette étape modifie fondamentalement la politique du modèle pour
Cette étape modifie fondamentalement la politique du modèle pour favoriser les actions - telles que le refus poli des requêtes nuisibles - qui s'alignent sur les préférences humaines apprises.
RLHF vs. apprentissage par renforcement standard
Si les deux approches reposent sur la maximisation d'une récompense, la source de cette récompense les différencie considérablement.
-
Apprentissage par renforcement (AR) standard : Dans l'apprentissage par renforcement traditionnel, la fonction de récompense est souvent codée en dur ou définie mathématiquement par l'environnement.
mathématiquement définie par l'environnement. Par exemple, dans un jeu d'échecs, l'environnement fournit un signal clair
signal clair : +1 pour une victoire, -1 pour une défaite. L'agent apprend par essais et erreurs dans le cadre de cette fonction définie.
Processus de décision de Markov (PDM).
-
RLHF : Dans de nombreuses tâches du monde réel, telles que la rédaction d'un résumé ou la conduite polie d'une voiture, il est impossible de définir explicitement une formule mathématique de "réussite".
pour le "succès" est impossible à définir explicitement. RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris, dérivé du feedback humain.
par un modèle de récompense appris, dérivé du retour d'information humain. Cela permet d'optimiser des concepts abstraits
comme la "serviabilité" ou la "sécurité" qui sont difficiles à programmer directement.
Applications concrètes
La RLHF a transformé la façon dont les systèmes d'IA interagissent avec le monde, en particulier dans les domaines nécessitant des normes de sécurité élevées et une compréhension nuancée.
et une compréhension nuancée.
-
IA conversationnelle et Chatbots : L'utilisation la plus courante de la RLHF est l'alignement des chatbots pour qu'ils soient utiles et inoffensifs.
utiles et inoffensifs. En pénalisant les résultats toxiques, biaisés ou factuellement incorrects, la RLHF permet d'atténuer les hallucinations chez les LLM et de réduire les risques d'erreur.
l 'hallucination dans les LLM et réduit les
les biais algorithmiques. Elle garantit que les assistants peuvent
refuser les instructions dangereuses tout en restant utiles pour les requêtes légitimes.
-
Robotique et agents autonomes : Au-delà du texte, la RLHF est appliquée en robotique pour enseigner à des agents des tâches physiques complexes.
robotique pour enseigner aux agents des tâches physiques complexes. Par exemple, un bras robotisé
Par exemple, un bras robotique apprenant à saisir des objets fragiles pourrait recevoir un retour d'information de la part de superviseurs humains sur les tentatives de préhension qui se sont avérées sûres par rapport aux échecs distincts.
les tentatives de préhension sûres par rapport aux échecs distincts. Ce retour d'information permet d'affiner la politique de contrôle de manière plus efficace que l'apprentissage par renforcement profond.
l 'apprentissage par renforcement profond basé
uniquement sur l'accomplissement de la tâche. Des méthodes similaires aident les
véhicules autonomes à apprendre des comportements de conduite
comportements de conduite qui semblent naturels aux passagers humains.
Intégrer la perception à la RLHF
Dans les applications visuelles, les agents RLHF s'appuient souvent sur la vision par ordinateur (VA) pour percevoir l'état de la situation.
vision par ordinateur (VA) pour percevoir l'état de leur
leur environnement. Un détecteur robuste, tel que YOLO11peut
peut fonctionner comme les "yeux" du système, en fournissant des observations structurées (par exemple, "piéton détecté sur la gauche") que le réseau politique utilise pour sélectionner une action.
à gauche") que le réseau politique utilise pour sélectionner une action.
L'exemple suivant illustre un concept simplifié dans lequel un modèle YOLO fournit l'état de l'environnement pour un agent.
agent. Dans une boucle RLHF complète, la "récompense" serait déterminée par un modèle formé sur les préférences humaines concernant la confiance ou la précision de l'agent.
concernant la confiance ou la précision de l'agent.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
En combinant de puissants modèles de perception avec des politiques alignées sur le retour d'information humain, les développeurs peuvent construire des systèmes qui
non seulement intelligents, mais aussi rigoureusement vérifiés pour la
sécurité de l'IA. La recherche sur la surveillance évolutive, telle que
l 'IA constitutionnelle,
continue de faire évoluer ce domaine, en cherchant à réduire la forte dépendance à l'égard de l'annotation humaine à grande échelle.