Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement à partir de feedback humain (RLHF)

Découvrez comment l'apprentissage par renforcement à partir de feedback humain (RLHF) affine les performances de l'IA en alignant les modèles sur les valeurs humaines pour une IA plus sûre et plus intelligente.

Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial intelligence models by incorporating direct human input into the training loop. Unlike standard supervised learning, which relies solely on static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness," "safety," or "creativity"—that are difficult to define with a simple mathematical loss function. RLHF has become a cornerstone in the development of modern large language models (LLMs) and generative AI, ensuring that powerful foundation models align effectively with human values and user intent.

Les composantes essentielles du RLHF

Le processus RLHF suit généralement un pipeline en trois étapes conçu pour combler le fossé entre les capacités prédictives brutes et le comportement aligné sur celui des humains.

  1. Réglage fin supervisé (SFT) : le flux de travail commence généralement par un modèle de base pré-entraîné. Les développeurs effectuent un réglage fin initial à l'aide d'un ensemble de données plus petit et de haute qualité (par exemple, des paires de questions-réponses rédigées par des experts). Cette étape établit une politique de base, enseignant au modèle le format général et le ton attendus pour la tâche.
  2. Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review multiple outputs generated by the model for the same input and rank them from best to worst. This data labeling effort generates a dataset of preferences. A separate neural network, called the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools available on the Ultralytics Platform can streamline the management of such annotation workflows.
  3. Reinforcement Learning Optimization: Finally, the original model acts as an AI agent within a reinforcement learning environment. Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.

Applications concrètes

RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of human interaction.

  • IA conversationnelle et chatbots : L'application la plus importante du RLHF consiste à aligner les chatbots afin qu'ils soient utiles, inoffensifs et honnêtes. En pénalisant les résultats biaisés, factuellement incorrects ou dangereux, le RLHF contribue à atténuer les hallucinations dans les LLM et réduit le risque de biais algorithmique. Cela garantit que les assistants virtuels peuvent refuser les instructions nuisibles tout en restant utiles pour les requêtes légitimes.
  • Robotique et contrôle physique : le RLHF va au-delà du texte pour s'étendre à l' IA en robotique, où il est difficile de définir une fonction de récompense parfaite pour des tâches physiques complexes. Par exemple, un robot qui apprend à se déplacer dans un entrepôt bondé peut recevoir des commentaires de superviseurs humains sur les trajectoires sûres par opposition à celles qui causent des perturbations. Ces commentaires affinent la politique de contrôle du robot plus efficacement qu'un simple apprentissage par renforcement profond basé uniquement sur la réalisation des objectifs.

RLHF vs. apprentissage par renforcement standard

Il est utile de distinguer le RLHF de l'apprentissage par renforcement traditionnel (RL) pour comprendre son utilité spécifique.

  • RL standard : dans les contextes traditionnels, la fonction de récompense est souvent codée en dur par l'environnement. Par exemple, dans un jeu vidéo, l'environnement fournit un signal clair (+1 pour une victoire, -1 pour une défaite). L'agent optimise ses actions dans le cadre de ce processus de décision markovien (MDP) défini.
  • RLHF : Dans de nombreux scénarios réels, tels que l'écriture d'une histoire créative ou la conduite courtoise, le « succès » est subjectif. Le RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris dérivé des préférences humaines. Cela permet d'optimiser des concepts abstraits tels que la « qualité » ou la « pertinence », qui sont impossibles à programmer explicitement.

Intégrer la perception avec des boucles de rétroaction

Dans les applications visuelles, les agents alignés sur RLHF s'appuient souvent sur la vision par ordinateur (CV) pour percevoir l'état de leur environnement avant d'agir. Un détecteur robuste, tel que YOLO26, fonctionne comme une couche de perception, fournissant des observations structurées (par exemple, « obstacle détecté à 3 mètres ») que le réseau de politiques utilise pour sélectionner une action.

The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the agent's decisions based on this detection data.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

En combinant des modèles de perception puissants avec des politiques affinées grâce au retour d'information humain, les développeurs peuvent créer des systèmes qui sont non seulement intelligents, mais aussi rigoureusement alignés sur les principes de sécurité de l'IA. Les recherches en cours sur la surveillance évolutive, telles que l' IA constitutionnelle, continuent de faire progresser ce domaine, dans le but de réduire le goulot d'étranglement que représente l'annotation humaine à grande échelle tout en maintenant des performances élevées des modèles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant