Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement à partir de feedback humain (RLHF)

Découvrez comment l'apprentissage par renforcement à partir de feedback humain (RLHF) affine les performances de l'IA en alignant les modèles sur les valeurs humaines pour une IA plus sûre et plus intelligente.

L'apprentissage par renforcement à partir du feedback humain (RLHF) est un cadre sophistiqué d'apprentissage l'apprentissage machine (ML) qui aligne les systèmes d'intelligence systèmes d'intelligence artificielle (IA) avec les valeurs, les préférences et les intentions humaines. Contrairement à l'apprentissage l'apprentissage supervisé traditionnel, qui forme des modèles de données statiques, la RLHF introduit une boucle de rétroaction dynamique dans laquelle des évaluateurs humains classent les résultats des modèles. Ces données de Ces données de classement sont utilisées pour former un "modèle de récompense", qui guide ensuite l'IA pour qu'elle génère des réponses plus utiles, plus sûres et plus précises, plus utiles, plus sûres et plus précises. Cette technique s'est avérée essentielle pour le développement de grands modèles de langage (LLM) modernes. grands modèles de langage (LLM) et de l'IA et de l'IA générative, en garantissant que les agissent conformément aux attentes de l'utilisateur et ne se contentent pas de prédire statistiquement le prochain mot ou pixel.

Le flux de travail de la RLHF

Le processus d'alignement d'un modèle via RLHF suit généralement un processus en trois étapes qui comble le fossé entre la capacité prédictive brute et l'interaction humaine nuancée. capacité prédictive brute et l'interaction humaine nuancée.

  1. Le réglage fin supervisé (SFT) : Le processus commence généralement par un modèle de base pré-entraîné. modèle de base pré-entraîné. Les développeurs utilisent sur un ensemble de données plus petit et de haute qualité d'exemples (tels que des dialogues ou des démonstrations) pour enseigner au modèle le format de base de la tâche souhaitée.
  2. Formation au modèle de récompense : C'est le cœur de la RLHF. Des annotateurs humains examinent plusieurs sorties générées par le modèle pour la même entrée et les classent de la meilleure à la pire. par le modèle pour la même entrée et les classent de la meilleure à la pire. Ce processus d'étiquetage des données Ce processus d'étiquetage des données crée un ensemble de préférences. préférences. Un réseau neuronal distinct, appelé appelé modèle de récompense, est entraîné sur ces données de comparaison pour prédire un score de récompense scalaire qui imite le jugement humain.
  3. Optimisation par apprentissage par renforcement : Le modèle original devient effectivement un agent d'intelligence artificielle dans un dans un environnement d'apprentissage par renforcement. En utilisant le modèle de récompense comme guide, des algorithmes tels que l'optimisation de la politique proximale (PPO). Optimisation de la politique proximale (PPO) ajustent les paramètres de l'agent pour maximiser la récompense attendue. Cette étape modifie fondamentalement la politique du modèle pour Cette étape modifie fondamentalement la politique du modèle pour favoriser les actions - telles que le refus poli des requêtes nuisibles - qui s'alignent sur les préférences humaines apprises.

RLHF vs. apprentissage par renforcement standard

Si les deux approches reposent sur la maximisation d'une récompense, la source de cette récompense les différencie considérablement.

  • Apprentissage par renforcement (AR) standard : Dans l'apprentissage par renforcement traditionnel, la fonction de récompense est souvent codée en dur ou définie mathématiquement par l'environnement. mathématiquement définie par l'environnement. Par exemple, dans un jeu d'échecs, l'environnement fournit un signal clair signal clair : +1 pour une victoire, -1 pour une défaite. L'agent apprend par essais et erreurs dans le cadre de cette fonction définie. Processus de décision de Markov (PDM).
  • RLHF : Dans de nombreuses tâches du monde réel, telles que la rédaction d'un résumé ou la conduite polie d'une voiture, il est impossible de définir explicitement une formule mathématique de "réussite". pour le "succès" est impossible à définir explicitement. RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris, dérivé du feedback humain. par un modèle de récompense appris, dérivé du retour d'information humain. Cela permet d'optimiser des concepts abstraits comme la "serviabilité" ou la "sécurité" qui sont difficiles à programmer directement.

Applications concrètes

La RLHF a transformé la façon dont les systèmes d'IA interagissent avec le monde, en particulier dans les domaines nécessitant des normes de sécurité élevées et une compréhension nuancée. et une compréhension nuancée.

  • IA conversationnelle et Chatbots : L'utilisation la plus courante de la RLHF est l'alignement des chatbots pour qu'ils soient utiles et inoffensifs. utiles et inoffensifs. En pénalisant les résultats toxiques, biaisés ou factuellement incorrects, la RLHF permet d'atténuer les hallucinations chez les LLM et de réduire les risques d'erreur. l 'hallucination dans les LLM et réduit les les biais algorithmiques. Elle garantit que les assistants peuvent refuser les instructions dangereuses tout en restant utiles pour les requêtes légitimes.
  • Robotique et agents autonomes : Au-delà du texte, la RLHF est appliquée en robotique pour enseigner à des agents des tâches physiques complexes. robotique pour enseigner aux agents des tâches physiques complexes. Par exemple, un bras robotisé Par exemple, un bras robotique apprenant à saisir des objets fragiles pourrait recevoir un retour d'information de la part de superviseurs humains sur les tentatives de préhension qui se sont avérées sûres par rapport aux échecs distincts. les tentatives de préhension sûres par rapport aux échecs distincts. Ce retour d'information permet d'affiner la politique de contrôle de manière plus efficace que l'apprentissage par renforcement profond. l 'apprentissage par renforcement profond basé uniquement sur l'accomplissement de la tâche. Des méthodes similaires aident les véhicules autonomes à apprendre des comportements de conduite comportements de conduite qui semblent naturels aux passagers humains.

Intégrer la perception à la RLHF

Dans les applications visuelles, les agents RLHF s'appuient souvent sur la vision par ordinateur (VA) pour percevoir l'état de la situation. vision par ordinateur (VA) pour percevoir l'état de leur leur environnement. Un détecteur robuste, tel que YOLO11peut peut fonctionner comme les "yeux" du système, en fournissant des observations structurées (par exemple, "piéton détecté sur la gauche") que le réseau politique utilise pour sélectionner une action. à gauche") que le réseau politique utilise pour sélectionner une action.

L'exemple suivant illustre un concept simplifié dans lequel un modèle YOLO fournit l'état de l'environnement pour un agent. agent. Dans une boucle RLHF complète, la "récompense" serait déterminée par un modèle formé sur les préférences humaines concernant la confiance ou la précision de l'agent. concernant la confiance ou la précision de l'agent.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

En combinant de puissants modèles de perception avec des politiques alignées sur le retour d'information humain, les développeurs peuvent construire des systèmes qui non seulement intelligents, mais aussi rigoureusement vérifiés pour la sécurité de l'IA. La recherche sur la surveillance évolutive, telle que l 'IA constitutionnelle, continue de faire évoluer ce domaine, en cherchant à réduire la forte dépendance à l'égard de l'annotation humaine à grande échelle.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant