Découvrez comment l'apprentissage par renforcement à partir du feedback humain (RLHF) aligne l'IA sur les valeurs humaines. Explorez ses composants essentiels et son intégration avec Ultralytics .
L'apprentissage par renforcement à partir du retour d'information humain (RLHF) est une technique avancée d'apprentissage automatique qui affine les modèles d'intelligence artificielle en intégrant directement les contributions humaines dans la boucle d'apprentissage. Contrairement à l'apprentissage supervisé standard , qui repose uniquement sur des ensembles de données statiques étiquetés, le RLHF introduit un mécanisme de retour d'information dynamique dans lequel des évaluateurs humains classent ou notent les résultats du modèle . Ce processus permet à l'IA de saisir des objectifs complexes, subjectifs ou nuancés, tels que « l'utilité », la « sécurité » ou la « créativité », qui sont difficiles à définir à l'aide d'une simple fonction de perte mathématique. Le RLHF est devenu la pierre angulaire du développement des grands modèles linguistiques (LLM) et de l' IA générative modernes, garantissant que les modèles de base puissants s'alignent efficacement sur les valeurs humaines et les intentions des utilisateurs.
Le processus RLHF suit généralement un pipeline en trois étapes conçu pour combler le fossé entre les capacités prédictives brutes et le comportement aligné sur celui des humains.
RLHF s'est avéré essentiel dans le déploiement de systèmes d'IA qui nécessitent des normes de sécurité élevées et une compréhension nuancée de l' interaction humaine.
Il est utile de distinguer le RLHF de l'apprentissage par renforcement traditionnel (RL) pour comprendre son utilité spécifique.
Dans les applications visuelles, les agents alignés sur RLHF s'appuient souvent sur la vision par ordinateur (CV) pour percevoir l'état de leur environnement avant d'agir. Un détecteur robuste, tel que YOLO26, fonctionne comme une couche de perception, fournissant des observations structurées (par exemple, « obstacle détecté à 3 mètres ») que le réseau de politiques utilise pour sélectionner une action.
Python suivant illustre un concept simplifié dans lequel un YOLO fournit l'état de l'environnement. Dans une boucle RLHF complète, le signal de « récompense » proviendrait d'un modèle entraîné à partir des commentaires humains concernant les décisions de l'agent basées sur ces données de détection.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
En combinant des modèles de perception puissants avec des politiques affinées grâce au retour d'information humain, les développeurs peuvent créer des systèmes qui sont non seulement intelligents, mais aussi rigoureusement alignés sur les principes de sécurité de l'IA. Les recherches en cours sur la surveillance évolutive, telles que l' IA constitutionnelle, continuent de faire progresser ce domaine, dans le but de réduire le goulot d'étranglement que représente l'annotation humaine à grande échelle tout en maintenant des performances élevées des modèles.
Commencez votre parcours avec l'avenir de l'apprentissage automatique