Apprentissage par renforcement à partir de feedback humain (RLHF)
Découvrez comment l'apprentissage par renforcement à partir de feedback humain (RLHF) affine les performances de l'IA en alignant les modèles sur les valeurs humaines pour une IA plus sûre et plus intelligente.
Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial
intelligence models by incorporating direct human input into the training loop. Unlike standard
supervised learning, which relies solely on
static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's
outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness,"
"safety," or "creativity"—that are difficult to define with a simple mathematical loss function.
RLHF has become a cornerstone in the development of modern
large language models (LLMs) and
generative AI, ensuring that powerful foundation models align effectively with human values and user intent.
Les composantes essentielles du RLHF
Le processus RLHF suit généralement un pipeline en trois étapes conçu pour combler le fossé entre les capacités prédictives brutes
et le comportement aligné sur celui des humains.
-
Réglage fin supervisé (SFT) : le flux de travail commence généralement par un
modèle de base pré-entraîné. Les développeurs effectuent un
réglage fin initial à l'aide d'un ensemble de données plus petit et de haute qualité
(par exemple, des paires de questions-réponses rédigées par des experts). Cette étape établit une politique de base, enseignant
au modèle le format général et le ton attendus pour la tâche.
-
Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review
multiple outputs generated by the model for the same input and rank them from best to worst. This
data labeling effort generates a dataset of
preferences. A separate neural network, called
the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools
available on the Ultralytics Platform can streamline the management
of such annotation workflows.
-
Reinforcement Learning Optimization: Finally, the original model acts as an
AI agent within a reinforcement learning environment.
Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the
model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human
preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.
Applications concrètes
RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of
human interaction.
-
IA conversationnelle et chatbots : L'application la plus importante du RLHF consiste à aligner les chatbots afin qu'ils
soient utiles, inoffensifs et honnêtes. En pénalisant les résultats biaisés, factuellement incorrects ou dangereux, le RLHF
contribue à atténuer les hallucinations dans les LLM et
réduit le risque de biais algorithmique. Cela
garantit que les assistants virtuels peuvent refuser les instructions nuisibles tout en restant utiles pour les requêtes légitimes.
-
Robotique et contrôle physique : le RLHF va au-delà du texte pour s'étendre à l'
IA en robotique, où il est difficile de définir une fonction de récompense parfaite
pour des tâches physiques complexes. Par exemple, un robot qui apprend à se déplacer dans un entrepôt bondé
peut recevoir des commentaires de superviseurs humains sur les trajectoires sûres par opposition à celles qui causent des perturbations.
Ces commentaires affinent la politique de contrôle du robot plus efficacement qu'un simple
apprentissage par renforcement profond basé
uniquement sur la réalisation des objectifs.
RLHF vs. apprentissage par renforcement standard
Il est utile de distinguer le RLHF de l'apprentissage par renforcement traditionnel
(RL) pour comprendre
son utilité spécifique.
-
RL standard : dans les contextes traditionnels, la fonction de récompense est souvent codée en dur par l'environnement.
Par exemple, dans un jeu vidéo, l'environnement fournit un signal clair (+1 pour une victoire, -1 pour une défaite). L'agent
optimise ses actions dans le cadre de ce
processus de décision markovien (MDP) défini.
-
RLHF : Dans de nombreux scénarios réels, tels que l'écriture d'une histoire créative ou la conduite courtoise,
le « succès » est subjectif. Le RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris
dérivé des préférences humaines. Cela permet d'optimiser des concepts abstraits tels que la « qualité » ou
la « pertinence », qui sont impossibles à programmer explicitement.
Intégrer la perception avec des boucles de rétroaction
Dans les applications visuelles, les agents alignés sur RLHF s'appuient souvent sur la
vision par ordinateur (CV) pour percevoir l'état de
leur environnement avant d'agir. Un détecteur robuste, tel que
YOLO26, fonctionne comme une couche de perception, fournissant des
observations structurées (par exemple, « obstacle détecté à 3 mètres ») que le réseau de politiques utilise pour sélectionner une
action.
The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In
a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the
agent's decisions based on this detection data.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
En combinant des modèles de perception puissants avec des politiques affinées grâce au retour d'information humain, les développeurs peuvent créer des systèmes qui
sont non seulement intelligents, mais aussi rigoureusement alignés sur les
principes de sécurité de l'IA. Les recherches en cours sur la
surveillance évolutive, telles que l'
IA constitutionnelle,
continuent de faire progresser ce domaine, dans le but de réduire le goulot d'étranglement que représente l'annotation humaine à grande échelle tout en maintenant des
performances élevées des modèles.