Glossaire

Apprentissage par renforcement à partir du feedback humain (RLHF)

Découvre comment l'apprentissage par renforcement à partir de commentaires humains (RLHF) affine les performances de l'IA en alignant les modèles sur les valeurs humaines pour une IA plus sûre et plus intelligente.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage par renforcement à partir de commentaires humains (RLHF) est une technique avancée d'apprentissage machine (ML) conçue pour aligner les modèles d'IA, en particulier les grands modèles de langage (LLM) et d'autres systèmes génératifs, plus étroitement sur les intentions et les préférences humaines. Elle affine le paradigme standard de l'apprentissage par renforcement (RL) en incorporant le feedback humain directement dans la boucle de formation, guidant l'intelligence artificielle (IA) pour qu'elle apprenne des comportements utiles, inoffensifs et honnêtes, même lorsque ces qualités sont difficiles à spécifier par le biais des fonctions de récompense traditionnelles. Cette approche est cruciale pour développer des systèmes d'IA plus sûrs et plus utiles, en allant au-delà des simples mesures de précision vers des performances nuancées alignées sur les valeurs humaines.

Comment fonctionne le FMLR

La RLHF implique généralement un processus en plusieurs étapes qui intègre le jugement humain pour former un modèle de récompense, qui guide ensuite le réglage fin du modèle d'IA principal :

  1. Pré-entraînement d'un modèle : Un modèle initial (par exemple, un LLM) est formé à l'aide de méthodes standard, souvent l 'apprentissage supervisé, sur un grand ensemble de données. Ce modèle peut générer un contenu pertinent mais peut manquer d'alignement spécifique.
  2. Recueillir les commentaires des humains : Le modèle pré-entraîné génère plusieurs résultats pour diverses invites. Les évaluateurs humains classent ces résultats en fonction de leur qualité, de leur utilité, de leur innocuité ou d'autres critères souhaités. Ce retour d'information comparatif est souvent plus fiable et plus facile à fournir pour les humains que les notes absolues. Ces données constituent un ensemble de préférences.
  3. Formation d'un modèle de récompense : Un modèle distinct, appelé modèle de récompense, est formé sur les données relatives aux préférences humaines. Son objectif est de prédire quelle sortie un humain préférerait, en apprenant essentiellement à imiter le jugement humain et à attribuer un signal de récompense scalaire.
  4. Ajustement à l'aide de l'apprentissage par renforcement : Le modèle d'IA original est ensuite affiné à l'aide de l'apprentissage par renforcement (plus précisément, d'algorithmes tels que l'optimisation de la politique proximale (PPO)). Le modèle de récompense fournit le signal de récompense pendant cette phase. Le modèle d'IA explore différentes sorties, et celles qui sont favorisées par le modèle de récompense sont renforcées, ce qui oriente le comportement du modèle vers les préférences humaines. Les concepts fondamentaux du RL sont détaillés dans des ressources telles que l'introduction de Sutton & Barto.

Ce cycle itératif aide le modèle d'IA à apprendre des objectifs complexes et subjectifs qui sont difficiles à définir de manière programmatique, ce qui améliore des aspects tels que l'éthique de l'IA et réduit les biais algorithmiques.

RLHF et concepts apparentés

  • Apprentissage par renforcement standard (RL) : L'apprentissage par renforcement traditionnel repose sur des fonctions de récompense explicitement programmées en fonction des états et des actions de l'environnement. Le RLHF le remplace ou le complète par un modèle de récompense appris basé sur les préférences humaines, ce qui lui permet de saisir des objectifs plus nuancés ou subjectifs. Explore l'apprentissage par renforcement profond pour découvrir des techniques d'apprentissage par renforcement plus avancées.
  • IA constitutionnelle (CAI): Développée par AnthropicL'IA constitutionnelle est une technique d'alignement alternative. Alors que la RLHF utilise les commentaires humains pour former le modèle de récompense à la fois à la serviabilité et à l'innocuité, la CAI utilise les commentaires de l'IA guidés par une "constitution" prédéfinie (un ensemble de règles ou de principes) pour superviser le modèle à l'innocuité, tout en utilisant souvent les commentaires humains pour la serviabilité. Pour en savoir plus sur l'IAO, consulte la recherche d'Anthropic.

Principales applications de la RLHF

La RLHF est devenue de plus en plus importante dans les applications où le comportement de l'IA doit s'aligner étroitement sur les valeurs et les attentes humaines :

  • Améliorer les chatbots et les assistants virtuels : Rendre l'IA conversationnelle plus engageante, plus utile et moins encline à générer des réponses nuisibles, biaisées ou absurdes. Cela implique d'affiner des modèles tels que le GPT-4.
  • Génération de contenu : Affiner les modèles pour des tâches telles que le résumé ou la génération de textes afin de produire des résultats qui correspondent mieux aux styles souhaités ou aux normes de qualité.
  • Personnaliser les systèmes de recommandation: Ajuster les moteurs de recommandation pour suggérer des contenus que les utilisateurs trouvent réellement intéressants ou utiles, au-delà des simples taux de clics.
  • Développer des véhicules autonomes plus sûrs : Intégrer les préférences humaines en matière de style de conduite (par exemple, la douceur, l'assurance) aux règles de sécurité.

Exemples concrets

Alignement des chatbots

Des entreprises comme OpenAI et Anthropic utilisent largement la RLHF pour entraîner leurs grands modèles de langage (par ex, ChatGPTClaude). En demandant à des humains de classer différentes réponses générées par l'IA en fonction de leur utilité et de leur innocuité, elles forment des modèles de récompense qui guident les LLM pour produire des textes plus sûrs, plus éthiques et plus utiles. Cela permet d'atténuer les risques associés aux résultats nuisibles ou biaisés et d'adhérer aux principes du développement responsable de l'IA.

Préférences en matière de conduite autonome

Lors du développement de l'IA pour les voitures autopilotées, la RLHF peut intégrer les commentaires des conducteurs ou des passagers sur les comportements de conduite simulés (par exemple, le confort lors des changements de voie, la fluidité de l'accélération, la prise de décision dans des situations ambiguës). Cela aide l'IA à apprendre des styles de conduite qui ne sont pas seulement sûrs selon des métriques objectives comme la distance ou les limites de vitesse, mais qui sont également confortables et intuitifs pour les humains, ce qui améliore la confiance et l'acceptation de l'utilisateur. Cela complète les tâches traditionnelles de vision par ordinateur, comme la détection d'objets, effectuées par des modèles tels que Ultralytics YOLO.

Avantages de la RLHF

  • Alignement amélioré : Intègre directement les préférences humaines, ce qui permet d'obtenir des systèmes d'IA qui correspondent mieux aux intentions et aux valeurs des utilisateurs.
  • Traitement de la subjectivité : Efficace pour les tâches où la qualité est subjective et difficile à définir avec une mesure simple (par exemple, la créativité, la politesse, la sécurité).
  • Sécurité renforcée : Aide à réduire la probabilité que l'IA génère des contenus nuisibles, contraires à l'éthique ou biaisés en apprenant des jugements humains sur les résultats indésirables.
  • Adaptabilité : Permet d'affiner les modèles pour des domaines ou des groupes d'utilisateurs spécifiques en fonction d'un retour d'information ciblé.

Défis et orientations futures

Malgré ses atouts, la FHLBSF est confrontée à des défis :

  • Évolutivité et coût : Recueillir des commentaires humains de haute qualité peut être coûteux et prendre du temps.
  • Qualité du feedback et biais : Les préférences humaines peuvent être incohérentes, biaisées ou manquer d'expertise, ce qui peut entraîner un biais de l'ensemble des données dans le modèle de récompense. Il est donc essentiel de s'assurer que les commentaires sont diversifiés et représentatifs.
  • Piratage des récompenses : L'IA peut trouver des moyens de maximiser la récompense prédite par le modèle de récompense sans réellement satisfaire la préférence humaine prévue (connu sous le nom de piratage de récompense ou de jeu de spécification).
  • Complexité : la mise en œuvre de l'ensemble du pipeline RLHF nécessite une expertise dans plusieurs domaines de la ML, notamment l'apprentissage supervisé, l'apprentissage par renforcement et la gestion de la formation de modèles à grande échelle.

Les recherches futures se concentrent sur des méthodes de rétroaction plus efficaces (par exemple, l'utilisation de l'assistance de l'IA pour l'étiquetage), l'atténuation des biais, l'amélioration de la robustesse des modèles de récompense et l'application de RLHF à un plus large éventail de tâches d'IA. Des outils comme la bibliothèque TRL deHugging Face facilitent la mise en œuvre de RLHF. Des plateformes telles qu'Ultralytics HUB fournissent une infrastructure pour la gestion des ensembles de données et des modèles de formation, qui pourrait potentiellement intégrer des mécanismes de rétroaction humaine à l'avenir pour des tâches d'alignement spécialisées dans des domaines tels que la vision par ordinateur. Pour plus de détails sur la façon de démarrer avec de telles plateformes, voir le guide de démarrage rapide d'Ultralytics HUB. Il est de plus en plus important de comprendre la RLHF pour mener des opérations d'apprentissage automatique (MLOps) efficaces et garantir la transparence de l'IA.

Tout lire