Glossaire

Apprentissage par renforcement

Découvre l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explore les concepts, les applications et les avantages !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage par renforcement (RL) est un type d'apprentissage automatique (ML) dans lequel un agent intelligent apprend à prendre une séquence de décisions en essayant de maximiser une récompense qu'il reçoit pour ses actions. Contrairement à l'apprentissage supervisé, qui apprend à partir d'exemples étiquetés, ou à l'apprentissage non supervisé, qui trouve des modèles dans les données non étiquetées, l'AR apprend par essais et erreurs en interagissant avec un environnement. L'agent reçoit un retour d'information sous forme de récompenses ou de pénalités en fonction des actions qu'il entreprend, ce qui oriente son processus d'apprentissage vers la réalisation d'un objectif spécifique.

Concepts de base

Plusieurs éléments clés définissent un système d'apprentissage par renforcement :

  • Agent : L'apprenant ou l'entité décisionnelle qui interagit avec l'environnement.
  • Environnement : Le système ou le monde extérieur au sein duquel l'agent opère.
  • État : Une représentation de la situation actuelle ou de la configuration de l'environnement perçue par l'agent.
  • Action : Une décision ou un mouvement pris par l'agent dans l'environnement.
  • Récompense : Un signal numérique reçu de l'environnement après avoir effectué une action, indiquant à quel point cette action était bonne ou mauvaise dans un état particulier. L'objectif de l'agent est généralement de maximiser la récompense cumulative au fil du temps.
  • Politique : La stratégie ou la cartographie que l'agent utilise pour déterminer la prochaine action en fonction de l'état actuel. C'est essentiellement ce que l'agent apprend.
  • Fonction de valeur : Une prédiction des récompenses futures attendues réalisables à partir d'un état donné ou en prenant une action spécifique dans un état donné, en suivant une politique particulière.
  • Processus de décision de Markov (PDM) : Un cadre mathématique couramment utilisé pour modéliser les problèmes de NR, définissant les interactions entre l'agent et l'environnement.

Le compromis exploration-exploitation constitue un défi fondamental dans le RL : l'agent doit trouver un équilibre entre l'exploration de nouvelles actions pour découvrir des récompenses potentiellement plus élevées (exploration) et le choix d'actions connues pour donner de bonnes récompenses (exploitation).

Comment fonctionne l'apprentissage par renforcement

Le processus RL est généralement itératif. L'agent observe l'état actuel de l'environnement, sélectionne une action en fonction de sa politique actuelle, exécute l'action et reçoit une récompense (ou une pénalité) et l'état suivant de l'environnement. Ce retour d'information est utilisé pour mettre à jour la politique ou la fonction de valeur de l'agent, améliorant ainsi sa prise de décision au fil du temps. Les algorithmes courants d'apprentissage par renforcement comprennent les méthodes d'apprentissage Q, SARSA et de gradient de politique, chacune employant des stratégies différentes pour l'apprentissage et la mise à jour de la politique. L'apprentissage par renforcement profond (DRL) combine l'apprentissage par renforcement profond avec des techniques d'apprentissage profond, en utilisant des réseaux neuronaux (NN) pour approximer les politiques ou les fonctions de valeur, ce qui permet à l'apprentissage par renforcement profond de s'attaquer à des problèmes avec des espaces d'état complexes et de haute dimension, comme les images ou les données de capteurs.

Comparaison avec d'autres paradigmes d'apprentissage

Le RL diffère considérablement des autres paradigmes de ML :

  • Apprentissage supervisé: Apprend à partir d'un ensemble de données contenant des exemples étiquetés (paires entrée-sortie). L'objectif est d'apprendre une fonction de mise en correspondance qui prédit les sorties pour de nouvelles entrées. Les exemples incluent la classification d'images et la régression. Le RL apprend grâce à l'interaction et au retour d'information (récompenses), et non grâce à des réponses correctes prédéfinies.
  • Apprentissage non supervisé: Apprend des modèles et des structures à partir de données non étiquetées. Les exemples incluent le regroupement et la réduction de la dimensionnalité. Le RL est orienté vers un but, l'apprentissage d'une politique pour maximiser les récompenses, alors que l'apprentissage non supervisé se concentre sur la découverte de structures de données.

Applications dans le monde réel

La RL a permis des avancées dans divers domaines :

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement est un élément crucial du paysage plus large de l'intelligence artificielle (IA), en particulier pour créer des systèmes autonomes capables de prendre des décisions complexes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles d'IA de vision comme... Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances à l'aide de l'apprentissage supervisé, les capacités de perception fournies par ces modèles sont souvent des entrées (états) essentielles pour les agents RL. Par exemple, un robot peut utiliser un modèle de détection d'objet déployé via Ultralytics HUB pour comprendre son environnement avant qu'une politique RL ne décide de son prochain mouvement. Comprendre le RL permet de comprendre comment la perception avancée s'intègre dans la construction de systèmes intelligents et autonomes, souvent développés à l'aide de frameworks tels que PyTorch et testés dans des environnements de simulation comme Gymnasium (anciennement OpenAI Gym). De nombreuses applications du monde réel impliquent l'intégration de la perception(vision par ordinateur) à la prise de décision (RL).

Tout lire