Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Reinforcement Learning from Human Feedback (RLHF)

Apprends comment l'apprentissage par renforcement à partir de retours humains (RLHF) aligne l'IA avec les valeurs humaines. Explore ses composants principaux et son intégration avec Ultralytics YOLO26.

L'apprentissage par renforcement à partir de rétroaction humaine (RLHF) est une technique avancée d'apprentissage automatique qui affine les modèles d'intelligence artificielle en intégrant une intervention humaine directe dans la boucle d'entraînement. Contrairement à l'apprentissage supervisé standard supervised learning, qui repose uniquement sur des jeux de données étiquetés statiques, le RLHF introduit un mécanisme de rétroaction dynamique où des évaluateurs humains classent ou notent les sorties du modèle. Ce processus permet à l'IA de capturer des objectifs complexes, subjectifs ou nuancés — tels que « l'utilité », « la sécurité » ou « la créativité » — difficiles à définir par une simple fonction de perte mathématique. Le RLHF est devenu une pierre angulaire du développement des grands modèles de langage (LLM) modernes et de l'IA générative, garantissant que les modèles de fondation puissants s'alignent efficacement sur les valeurs humaines et l'intention de l'utilisateur.

Link to this sectionLes composants clés du RLHF#

Le processus RLHF suit généralement un pipeline en trois étapes conçu pour combler l'écart entre les capacités prédictives brutes et un comportement aligné sur l'humain.

  1. Ajustement supervisé (SFT) : Le flux de travail commence généralement par un modèle de fondation pré-entraîné. Les développeurs effectuent un ajustement initial à l'aide d'un jeu de données plus restreint et de haute qualité composé de démonstrations (par exemple, des paires question-réponse rédigées par des experts). Cette étape établit une politique de base, enseignant au modèle le format et le ton généraux attendus pour la tâche.

  2. Entraînement du modèle de récompense : Cette phase est la caractéristique distinctive du RLHF. Des annotateurs humains examinent plusieurs sorties générées par le modèle pour une même entrée et les classent de la meilleure à la pire. Cet effort d'étiquetage de données génère un jeu de données de préférences. Un réseau de neurones distinct, appelé modèle de récompense, est entraîné sur ces données de comparaison pour prédire un score scalaire qui reflète le jugement humain. Les outils disponibles sur la plateforme Ultralytics peuvent rationaliser la gestion de tels flux de travail d'annotation.

  3. Optimisation par apprentissage par renforcement : Enfin, le modèle original agit comme un agent IA au sein d'un environnement d'apprentissage par renforcement. En utilisant le modèle de récompense comme guide, des algorithmes d'optimisation tels que l'optimisation de politique proximale (PPO) ajustent les paramètres du modèle pour maximiser la récompense attendue. Cette étape aligne la politique du modèle sur les préférences humaines apprises, encourageant des comportements utiles et sûrs tout en décourageant les sorties toxiques ou absurdes.

Link to this sectionApplications concrètes#

Le RLHF s'est avéré crucial pour déployer des systèmes d'IA nécessitant des normes de sécurité élevées et une compréhension nuancée de l'interaction humaine.

  • IA conversationnelle et chatbots : L'application la plus importante du RLHF consiste à aligner les chatbots pour qu'ils soient utiles, inoffensifs et honnêtes. En pénalisant les sorties biaisées, factuellement incorrectes ou dangereuses, le RLHF aide à atténuer les hallucinations dans les LLM et réduit le risque de biais algorithmique. Cela garantit que les assistants virtuels peuvent refuser des instructions nuisibles tout en restant utiles pour des requêtes légitimes.
  • Robotique et contrôle physique : Le RLHF s'étend au-delà du texte à l'IA en robotique, où définir une fonction de récompense parfaite pour des tâches physiques complexes est difficile. Par exemple, un robot apprenant à naviguer dans un entrepôt bondé pourrait recevoir des commentaires de superviseurs humains sur les trajectoires sûres par rapport à celles ayant causé des perturbations. Ce retour affine la politique de contrôle du robot plus efficacement qu'un simple apprentissage par renforcement profond basé uniquement sur l'achèvement d'un objectif.

Link to this sectionRLHF vs. apprentissage par renforcement standard#

Il est utile de distinguer le RLHF de l'apprentissage par renforcement (RL) traditionnel pour comprendre son utilité spécifique.

  • RL standard : Dans les environnements traditionnels, la fonction de récompense est souvent codée en dur par l'environnement. Par exemple, dans un jeu vidéo, l'environnement fournit un signal clair (+1 pour une victoire, -1 pour une défaite). L'agent optimise ses actions au sein de ce processus décisionnel de Markov (MDP) défini.
  • RLHF : Dans de nombreux scénarios réels, tels que l'écriture d'une histoire créative ou la conduite polie, le « succès » est subjectif. Le RLHF résout ce problème en remplaçant la récompense codée en dur par un modèle de récompense appris, dérivé des préférences humaines. Cela permet l'optimisation de concepts abstraits tels que la « qualité » ou « l'adéquation », impossibles à programmer explicitement.

Link to this sectionIntégration de la perception avec les boucles de rétroaction#

Dans les applications visuelles, les agents alignés par RLHF s'appuient souvent sur la vision par ordinateur (CV) pour percevoir l'état de leur environnement avant d'agir. Un détecteur robuste, tel que YOLO26, fonctionne comme la couche de perception, fournissant des observations structurées (par exemple, « obstacle détecté à 3 mètres ») que le réseau de politique utilise pour sélectionner une action.

L'exemple Python suivant illustre un concept simplifié où un modèle YOLO fournit l'état environnemental. Dans une boucle RLHF complète, le signal de « récompense » proviendrait d'un modèle entraîné sur les commentaires humains concernant les décisions de l'agent basées sur ces données de détection.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

En combinant des modèles de perception puissants avec des politiques affinées par le biais de rétroactions humaines, les développeurs peuvent créer des systèmes non seulement intelligents, mais aussi rigoureusement alignés sur les principes de sécurité de l'IA. La recherche en cours sur la supervision évolutive, telle que l'IA Constitutionnelle, continue de faire évoluer ce domaine, visant à réduire le goulot d'étranglement de l'annotation humaine à grande échelle tout en maintenant des performances de modèle élevées.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique