Reinforcement Learning
Explore les concepts fondamentaux de l'apprentissage par renforcement (RL). Apprends comment les agents utilisent les retours pour maîtriser des tâches et découvre comment Ultralytics YOLO26 propulse les systèmes de vision RL.
L'apprentissage par renforcement (RL) est un sous-domaine de l'apprentissage automatique (ML) axé sur les objectifs, où un système autonome, appelé agent, apprend à prendre des décisions en effectuant des actions et en recevant des retours de son environnement. Contrairement à l'apprentissage supervisé, qui repose sur des ensembles de données statiques étiquetés avec les bonnes réponses, les algorithmes de RL apprennent par un processus dynamique d'essais et d'erreurs. L'agent interagit avec une simulation ou le monde réel, observant les conséquences de ses actions pour déterminer quelles stratégies produisent les récompenses à long terme les plus élevées. Cette approche imite étroitement le concept psychologique du conditionnement opérant, où le comportement est façonné par le renforcement positif (récompenses) et le renforcement négatif (punitions) au fil du temps.
Link to this sectionConcepts fondamentaux de la boucle RL#
Pour comprendre comment fonctionne la RL, il est utile de la visualiser comme un cycle continu d'interaction. Ce cadre est souvent formalisé mathématiquement en tant que Processus de décision markovien (MDP), qui structure la prise de décision dans des situations où les résultats sont partiellement aléatoires et partiellement contrôlés par le décideur.
Les principaux composants de cette boucle d'apprentissage incluent :
- Agent IA : L'entité responsable de l'apprentissage et de la prise de décisions. Il perçoit l'environnement et effectue des actions pour maximiser son succès cumulé.
- Environnement : Le monde extérieur dans lequel l'agent opère. Il peut s'agir d'un jeu vidéo complexe, d'une simulation de marché financier ou d'un entrepôt physique dans le cadre de l'IA dans la logistique.
- État : Un instantané ou une représentation de la situation actuelle. Dans les applications visuelles, cela implique souvent le traitement de flux de caméra utilisant la vision par ordinateur (CV) pour détecter des objets et des obstacles.
- Action : Le mouvement ou le choix spécifique que fait l'agent. L'ensemble complet de tous les mouvements possibles est appelé espace d'action.
- Récompense : Un signal numérique envoyé de l'environnement vers l'agent après une action. Une fonction de récompense bien conçue attribue des valeurs positives pour les actions bénéfiques et des pénalités pour les actions préjudiciables.
- Politique : La stratégie ou l'ensemble de règles que l'agent utilise pour déterminer l'action suivante en fonction de l'état actuel. Des algorithmes comme le Q-learning définissent comment cette politique est mise à jour et optimisée.
Link to this sectionApplications concrètes#
L'apprentissage par renforcement est passé de la recherche théorique à des déploiements pratiques à fort impact dans diverses industries.
- Robotique avancée : Dans le domaine de l'IA en robotique, la RL permet aux machines de maîtriser des compétences motrices complexes difficiles à coder manuellement. Les robots peuvent apprendre à saisir des objets irréguliers ou à naviguer sur des terrains accidentés en s'entraînant au sein de moteurs physiques comme NVIDIA Isaac Sim avant d'être déployés dans le monde réel.
- Systèmes autonomes : Les véhicules autonomes utilisent la RL pour prendre des décisions en temps réel dans des scénarios de trafic imprévisibles. Tandis que les modèles de détection d'objets identifient les piétons et les panneaux, les algorithmes de RL aident à déterminer des politiques de conduite sécurisées pour l'insertion sur voie et la navigation aux intersections.
- Optimisation stratégique : La RL a attiré l'attention mondiale lorsque des systèmes comme AlphaGo de Google DeepMind ont vaincu des champions du monde humains dans des jeux de société complexes. Au-delà du jeu, ces agents optimisent la logistique industrielle, comme le contrôle des systèmes de refroidissement dans les centres de données pour réduire la consommation d'énergie.
Link to this sectionIntégration de la vision avec la RL#
Dans de nombreuses applications modernes, l'« état » qu'un agent observe est visuel. Des modèles haute performance comme YOLO26 agissent comme la couche de perception pour les agents RL, convertissant des images brutes en données structurées. Ces informations traitées — telles que l'emplacement et la classe des objets — deviennent l'état que la politique RL utilise pour choisir une action.
L'exemple suivant démontre comment utiliser le package ultralytics pour traiter une image d'environnement, créant une représentation d'état (par exemple, le nombre d'objets) pour une boucle RL théorique.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this sectionDifférencier les termes associés#
Il est important de distinguer l'apprentissage par renforcement des autres paradigmes d'apprentissage automatique :
- vs. Apprentissage supervisé : L'apprentissage supervisé nécessite un superviseur externe compétent pour fournir des données d'entraînement étiquetées (par exemple, « cette image contient un chat »). En revanche, la RL apprend des conséquences de ses propres actions sans étiquettes explicites, découvrant des chemins optimaux par l'exploration.
- vs. Apprentissage non supervisé : L'apprentissage non supervisé se concentre sur la recherche de structures ou de modèles cachés au sein de données non étiquetées (comme le regroupement de clients). La RL diffère car elle est explicitement orientée vers un objectif, se concentrant sur la maximisation d'un signal de récompense plutôt que sur la simple description de la structure des données.
À mesure que la puissance de calcul augmente, des techniques comme l'Apprentissage par renforcement à partir du feedback humain (RLHF) affinent davantage la manière dont les agents apprennent, alignant leurs objectifs plus étroitement sur des valeurs humaines complexes et des normes de sécurité. Les chercheurs utilisent souvent des environnements standardisés comme Gymnasium pour évaluer et améliorer ces algorithmes. Pour les équipes cherchant à gérer les ensembles de données requis pour les couches de perception de ces agents, la Plateforme Ultralytics offre des outils complets pour l'annotation et la gestion de modèles.






