Glossaire

Apprentissage par renforcement profond

Découvre la puissance de l'apprentissage par renforcement profond - où l'IA apprend des comportements complexes pour résoudre des défis dans les jeux, la robotique, les soins de santé et plus encore.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage par renforcement profond (DRL) combine les principes de l'apprentissage par renforcement (RL) avec la puissance de l'apprentissage profond (DL). Il permet aux agents logiciels d'apprendre des comportements optimaux dans des environnements complexes, souvent à haute dimension, par le biais d'essais et d'erreurs. Contrairement à l'apprentissage par renforcement traditionnel, qui peut se heurter à de vastes espaces d'état (comme les données brutes des pixels d'un appareil photo), l'apprentissage par renforcement utilise des réseaux neuronaux profonds (RNP) pour approximer les fonctions nécessaires à l'apprentissage, telles que la fonction de valeur (prédiction des récompenses futures) ou la politique (mise en correspondance des états et des actions). Cela permet aux agents DRL de s'attaquer à des problèmes auparavant insolubles, en apprenant directement à partir d'entrées sensorielles complexes telles que des images ou des relevés de capteurs.

Comment fonctionne l'apprentissage par renforcement profond

À la base, la LRD implique un agent qui interagit avec un environnement au cours d'étapes temporelles discrètes. Le processus se déroule généralement comme suit :

  1. Observation : L'agent observe l'état actuel de l'environnement. Dans la DRL, cet état peut être représenté par des données à haute dimension, comme les pixels d'une image traités par un réseau neuronal convolutif (CNN).
  2. Sélection de l'action : Sur la base de l'état observé, l'agent sélectionne une action à l'aide de sa politique, qui est représentée par un réseau neuronal profond.
  3. Interaction : L'agent effectue l'action choisie, ce qui conduit l'environnement à passer à un nouvel état.
  4. Rétroaction (récompense) : L'environnement fournit un signal de récompense scalaire, indiquant à quel point l'action était bonne ou mauvaise dans l'état précédent.
  5. Apprentissage : L'agent utilise le signal de récompense et la transition d'état pour mettre à jour son réseau neuronal (politique ou fonction de valeur) par le biais d'algorithmes tels que la rétropropagation et la descente de gradient. L'objectif est d'ajuster les poids du réseau pour maximiser la récompense future cumulée au fil du temps. Cette boucle d'apprentissage se répète, permettant à l'agent d'améliorer progressivement sa stratégie de prise de décision.

Concepts clés de la LRD

Pour comprendre le DRL, il faut se familiariser avec plusieurs idées fondamentales de l'apprentissage par renforcement, maintenant mises à l'échelle à l'aide de techniques d'apprentissage profond :

  • Agent : L'algorithme ou le modèle qui apprend à prendre des décisions.
  • Environnement : Le monde ou le système avec lequel l'agent interagit (par exemple, une simulation de jeu, l'environnement d'un robot physique). Les environnements standardisés pour la recherche sont souvent fournis par des boîtes à outils comme Gymnasium (anciennement OpenAI Gym).
  • État : Une représentation de l'environnement à un moment précis. La DRL excelle dans le traitement des états représentés par de grandes quantités de données, comme les images ou les réseaux de capteurs.
  • Action : Une décision prise par l'agent qui influence l'environnement.
  • Récompense : Retour numérique de l'environnement indiquant la désirabilité immédiate d'une action entreprise dans un état.
  • Politique : La stratégie de l'agent, qui met en correspondance les états et les actions. Dans la DRL, il s'agit généralement d'un réseau neuronal profond.
  • Fonction de valeur : Estime la récompense cumulative attendue à long terme d'un état donné ou d'une paire état-action. Cette fonction est également souvent représentée par un réseau neuronal profond.
  • Exploration vs. exploitation : Un compromis fondamental où l'agent doit trouver un équilibre entre essayer de nouvelles actions pour découvrir de meilleures stratégies (exploration) et s'en tenir aux bonnes actions connues (exploitation).

La LRD par rapport à d'autres paradigmes d'apprentissage automatique

La DRL diffère considérablement des autres approches primaires d'apprentissage automatique (ML) :

  • Apprentissage supervisé: Apprend à partir d'un ensemble de données contenant des exemples étiquetés (paires entrée-sortie). Des tâches telles que la classification d'images ou la détection d'objets à l'aide de modèles tels que Ultralytics YOLO entrent dans cette catégorie. Le DRL, en revanche, apprend à partir de signaux de récompense sans réponses correctes explicites pour chaque état.
  • Apprentissage non supervisé: Apprend des modèles et des structures à partir de données non étiquetées (par exemple, le regroupement). Le DRL se concentre sur l'apprentissage d'un comportement orienté vers un objectif grâce à l'interaction et au retour d'information.
  • Apprentissage par renforcement (RL): L'apprentissage par renforcement est un type spécifique d'apprentissage par renforcement qui utilise des réseaux neuronaux profonds. L'apprentissage par renforcement traditionnel utilise souvent des représentations plus simples telles que des tables (tables Q) qui sont infaisables pour les problèmes avec des espaces d'état très grands ou continus où l'apprentissage par renforcement profond brille.

Applications dans le monde réel

La DRL a permis de réaliser des percées dans divers domaines complexes :

  • Robotique: Apprendre aux robots à effectuer des tâches complexes telles que la manipulation d'objets, la locomotion et l'assemblage, en apprenant souvent directement à partir des entrées de la caméra ou des données des capteurs. Ce sujet est exploré dans des ressources telles que Le rôle de l'IA dans la robotique.
  • Jeu : Réaliser des performances surhumaines dans des jeux complexes, tels que le jeu de Go(AlphaGo de DeepMind) et divers jeux vidéo(OpenAI Five pour Dota 2).
  • Véhicules autonomes: Développer des politiques de contrôle sophistiquées pour la navigation, la planification de la trajectoire et la prise de décision dans des scénarios de circulation dynamiques, comme indiqué dans AI in self-driving cars.
  • Optimisation des ressources : Gestion de systèmes complexes comme les réseaux énergétiques(IA dans les énergies renouvelables), le contrôle des feux de circulation(IA dans la gestion du trafic) et l'optimisation des réactions chimiques.
  • Systèmes de recommandation: Optimiser les séquences de recommandations pour maximiser l'engagement ou la satisfaction de l'utilisateur à long terme.
  • Soins de santé : Découvrir des politiques de traitement ou des dosages de médicaments optimaux en fonction de l'état et des résultats du patient, contribuer à des domaines comme l'IA dans les soins de santé.

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement profond représente un domaine important de la recherche en intelligence artificielle (IA), repoussant les limites de l'autonomie et de la prise de décision des machines. Alors que des entreprises comme Ultralytics se concentrent principalement sur des modèles de vision de pointe comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images à l'aide de l'apprentissage supervisé, les sorties de ces systèmes de perception sont souvent des entrées cruciales pour les agents de l'apprentissage par renforcement profond. Par exemple, un robot peut utiliser un modèle Ultralytics YOLO déployé via Ultralytics HUB pour percevoir son environnement (représentation de l'état) avant qu'une politique de DRL ne décide de la prochaine action. La compréhension de la NRD permet de comprendre comment la perception avancée s'intègre dans les systèmes autonomes plus larges et les problèmes de contrôle complexes abordés par la communauté de l'IA à l'aide de boîtes à outils telles que Gymnasium et de cadres tels que PyTorchPyTorch page d'accueilPyTorch ) et TensorFlowTensorFlow page d'accueil deTensorFlow ). Des organismes de recherche comme DeepMind et des organismes universitaires comme l'Association for the Advancement of Artificial Intelligence (AAAI) continuent de faire progresser ce domaine passionnant.

Tout lire