Apprentissage par renforcement à partir de feedback humain (RLHF)
Découvrez comment l'apprentissage par renforcement à partir du feedback humain (RLHF) aligne l'IA sur les valeurs humaines. Explorez ses composants essentiels et son intégration avec Ultralytics .
L'apprentissage par renforcement à partir du retour d'information humain (RLHF) est une technique avancée d'apprentissage automatique qui affine les modèles d'intelligence artificielle
en intégrant directement les contributions humaines dans la boucle d'apprentissage. Contrairement à l'apprentissage supervisé standard
, qui repose uniquement sur des
ensembles de données statiques étiquetés, le RLHF introduit un mécanisme de retour d'information dynamique dans lequel des évaluateurs humains classent ou notent les résultats du modèle
. Ce processus permet à l'IA de saisir des objectifs complexes, subjectifs ou nuancés, tels que « l'utilité », la
« sécurité » ou la « créativité », qui sont difficiles à définir à l'aide d'une simple fonction de perte mathématique.
Le RLHF est devenu la pierre angulaire du développement des
grands modèles linguistiques (LLM) et de l'
IA générative modernes, garantissant que les modèles de base puissants s'alignent efficacement sur les valeurs humaines et les intentions des utilisateurs.
Les composantes essentielles du RLHF
Le processus RLHF suit généralement un pipeline en trois étapes conçu pour combler le fossé entre les capacités prédictives brutes
et le comportement aligné sur celui des humains.
-
Réglage fin supervisé (SFT) : le flux de travail commence généralement par un
modèle de base pré-entraîné. Les développeurs effectuent un
réglage fin initial à l'aide d'un ensemble de données plus petit et de haute qualité
(par exemple, des paires de questions-réponses rédigées par des experts). Cette étape établit une politique de base, enseignant
au modèle le format général et le ton attendus pour la tâche.
-
Formation du modèle de récompense : cette phase est la caractéristique distinctive de RLHF. Des annotateurs humains examinent
les multiples résultats générés par le modèle pour une même entrée et les classent du meilleur au pire. Cet
effort d'étiquetage des données génère un ensemble de données de
préférences. Un réseau neuronal distinct, appelé
modèle de récompense, est formé à partir de ces données comparatives afin de prédire un score scalaire qui reflète le jugement humain. Les outils
disponibles sur la Ultralytics permettent de rationaliser la gestion
de ces workflows d'annotation.
-
Optimisation par apprentissage par renforcement : enfin, le modèle original agit comme un
agent IA dans un environnement d'apprentissage par renforcement.
À l'aide du modèle de récompense comme guide, des algorithmes d'optimisation tels que l'optimisation de politique proximale (PPO) ajustent les
paramètres du modèle afin de maximiser la récompense attendue. Cette étape aligne la politique du modèle sur les préférences humaines apprises,
encourageant les comportements utiles et sûrs tout en décourageant les résultats toxiques ou absurdes.
Applications concrètes
RLHF s'est avéré essentiel dans le déploiement de systèmes d'IA qui nécessitent des normes de sécurité élevées et une compréhension nuancée de l'
interaction humaine.
-
IA conversationnelle et chatbots : L'application la plus importante du RLHF consiste à aligner les chatbots afin qu'ils
soient utiles, inoffensifs et honnêtes. En pénalisant les résultats biaisés, factuellement incorrects ou dangereux, le RLHF
contribue à atténuer les hallucinations dans les LLM et
réduit le risque de biais algorithmique. Cela
garantit que les assistants virtuels peuvent refuser les instructions nuisibles tout en restant utiles pour les requêtes légitimes.
-
Robotique et contrôle physique : le RLHF va au-delà du texte pour s'étendre à l'
IA en robotique, où il est difficile de définir une fonction de récompense parfaite
pour des tâches physiques complexes. Par exemple, un robot qui apprend à se déplacer dans un entrepôt bondé
peut recevoir des commentaires de superviseurs humains sur les trajectoires sûres par opposition à celles qui causent des perturbations.
Ces commentaires affinent la politique de contrôle du robot plus efficacement qu'un simple
apprentissage par renforcement profond basé
uniquement sur la réalisation des objectifs.
RLHF vs. apprentissage par renforcement standard
Il est utile de distinguer le RLHF de l'apprentissage par renforcement traditionnel
(RL) pour comprendre
son utilité spécifique.
-
RL standard : dans les contextes traditionnels, la fonction de récompense est souvent codée en dur par l'environnement.
Par exemple, dans un jeu vidéo, l'environnement fournit un signal clair (+1 pour une victoire, -1 pour une défaite). L'agent
optimise ses actions dans le cadre de ce
processus de décision markovien (MDP) défini.
-
RLHF : Dans de nombreux scénarios réels, tels que l'écriture d'une histoire créative ou la conduite courtoise,
le « succès » est subjectif. Le RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris
dérivé des préférences humaines. Cela permet d'optimiser des concepts abstraits tels que la « qualité » ou
la « pertinence », qui sont impossibles à programmer explicitement.
Intégrer la perception avec des boucles de rétroaction
Dans les applications visuelles, les agents alignés sur RLHF s'appuient souvent sur la
vision par ordinateur (CV) pour percevoir l'état de
leur environnement avant d'agir. Un détecteur robuste, tel que
YOLO26, fonctionne comme une couche de perception, fournissant des
observations structurées (par exemple, « obstacle détecté à 3 mètres ») que le réseau de politiques utilise pour sélectionner une
action.
Python suivant illustre un concept simplifié dans lequel un YOLO fournit l'état de l'environnement. Dans
une boucle RLHF complète, le signal de « récompense » proviendrait d'un modèle entraîné à partir des commentaires humains concernant les
décisions de l'agent basées sur ces données de détection.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
En combinant des modèles de perception puissants avec des politiques affinées grâce au retour d'information humain, les développeurs peuvent créer des systèmes qui
sont non seulement intelligents, mais aussi rigoureusement alignés sur les
principes de sécurité de l'IA. Les recherches en cours sur la
surveillance évolutive, telles que l'
IA constitutionnelle,
continuent de faire progresser ce domaine, dans le but de réduire le goulot d'étranglement que représente l'annotation humaine à grande échelle tout en maintenant des
performances élevées des modèles.