Glossaire

Apprentissage par renforcement profond

Découvrez la puissance de l'apprentissage par renforcement profond, qui permet à l'IA d'apprendre des comportements complexes pour résoudre des problèmes dans les domaines du jeu, de la robotique, des soins de santé et bien plus encore.

Le Deep Reinforcement Learning (DRL) combine les principes du Reinforcement Learning (RL) avec la puissance du Deep Learning (DL). Il permet aux agents logiciels d'apprendre des comportements optimaux dans des environnements complexes, souvent de haute dimension, par essais et erreurs. Contrairement à l'apprentissage par renforcement traditionnel, qui peut se heurter à de vastes espaces d'état (comme les données brutes des pixels d'un appareil photo), l'apprentissage par renforcement utilise des réseaux neuronaux profonds pour approximer les fonctions nécessaires à l'apprentissage, telles que la fonction de valeur (prédiction des récompenses futures) ou la politique (mise en correspondance des états et des actions). Cela permet aux agents DRL de s'attaquer à des problèmes auparavant insolubles, en apprenant directement à partir d'entrées sensorielles complexes telles que des images ou des relevés de capteurs.

Comment fonctionne l'apprentissage par renforcement profond

Au fond, la LRD implique un agent qui interagit avec un environnement au cours d'étapes temporelles discrètes. Le processus se déroule généralement comme suit :

  1. Observation : L'agent observe l'état actuel de l'environnement. Dans la LRD, cet état peut être représenté par des données à haute dimension, telles que des pixels d'image traités par un réseau neuronal convolutif (CNN).
  2. Sélection d'actions : Sur la base de l'état observé, l'agent sélectionne une action à l'aide de sa politique, qui est représentée par un réseau neuronal profond.
  3. Interaction : L'agent effectue l'action choisie, ce qui conduit l'environnement à passer à un nouvel état.
  4. Rétroaction (récompense) : L'environnement fournit un signal de récompense scalaire, indiquant dans quelle mesure l'action était bonne ou mauvaise dans l'état précédent.
  5. Apprentissage : L'agent utilise le signal de récompense et la transition d'état pour mettre à jour son réseau neuronal (politique ou fonction de valeur) au moyen d'algorithmes tels que la rétropropagation et la descente de gradient. L'objectif est d'ajuster les poids du réseau afin de maximiser la récompense future cumulée au fil du temps. Cette boucle d'apprentissage se répète, permettant à l'agent d'améliorer progressivement sa stratégie de prise de décision.

Concepts clés de la LRD

Pour comprendre le DRL, il faut se familiariser avec plusieurs idées fondamentales de l'apprentissage par renforcement, aujourd'hui mises à l'échelle à l'aide de techniques d'apprentissage profond :

  • Agent : L'algorithme ou le modèle qui apprend à prendre des décisions.
  • Environnement : Le monde ou le système avec lequel l'agent interagit (par exemple, une simulation de jeu, l'environnement d'un robot physique). Les environnements standardisés pour la recherche sont souvent fournis par des boîtes à outils comme Gymnasium (anciennement OpenAI Gym).
  • État : Une représentation de l'environnement à un moment précis. La DRL excelle dans le traitement des états représentés par de grandes quantités de données, comme les images ou les réseaux de capteurs.
  • Action : Une décision prise par l'agent qui influence l'environnement.
  • Récompense : Retour d'information numérique de l'environnement indiquant l'intérêt immédiat d'une action entreprise dans un état.
  • Politique : La stratégie de l'agent, qui met en correspondance les états et les actions. Dans la LRD, il s'agit généralement d'un réseau neuronal profond.
  • Fonction de valeur : Estime la récompense cumulative attendue à long terme d'un état donné ou d'une paire état-action. Cette fonction est également souvent représentée par un réseau neuronal profond.
  • Exploration vs. exploitation : Il s'agit d'un compromis fondamental dans lequel l'agent doit trouver un équilibre entre l'essai de nouvelles actions pour découvrir de meilleures stratégies (exploration) et le maintien des bonnes actions connues (exploitation).

La LRD par rapport à d'autres paradigmes d'apprentissage automatique

La DRL diffère considérablement des autres approches primaires d'apprentissage automatique (ML) :

  • Apprentissage supervisé: Apprentissage à partir d'un ensemble de données contenant des exemples étiquetés (paires entrée-sortie). Des tâches telles que la classification d'images ou la détection d'objets à l'aide de modèles comme Ultralytics YOLO entrent dans cette catégorie. La méthode DRL, en revanche, apprend à partir de signaux de récompense sans réponses correctes explicites pour chaque état.
  • Apprentissage non supervisé: Apprentissage de modèles et de structures à partir de données non étiquetées (par exemple, regroupement). Le DRL se concentre sur l'apprentissage d'un comportement orienté vers un objectif grâce à l'interaction et au retour d'information.
  • Apprentissage par renforcement (RL): Le DRL est un type spécifique de RL qui utilise des réseaux neuronaux profonds. L'apprentissage par renforcement traditionnel utilise souvent des représentations plus simples, telles que des tables (tables Q), qui sont irréalisables pour les problèmes comportant des espaces d'état très vastes ou continus, où l'apprentissage par renforcement s'avère particulièrement efficace.

Applications dans le monde réel

La DRL a permis des percées dans divers domaines complexes :

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement profond (Deep Reinforcement Learning) représente un domaine important de la recherche en intelligence artificielle (IA), repoussant les limites de l'autonomie et de la prise de décision des machines. Alors que des entreprises comme Ultralytics se concentrent principalement sur des modèles de vision de pointe comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images à l'aide de l'apprentissage supervisé, les résultats de ces systèmes de perception sont souvent des entrées cruciales pour les agents DRL. Par exemple, un robot peut utiliser un modèle Ultralytics YOLO déployé via Ultralytics HUB pour percevoir son environnement (représentation de l'état) avant qu'une politique de DRL ne décide de la prochaine action. La compréhension de la DRL permet de comprendre comment la perception avancée s'intègre dans les systèmes autonomes plus larges et les problèmes de contrôle complexes abordés par la communauté de l'IA à l'aide de boîtes à outils comme Gymnasium et de cadres tels que PyTorch(page d'accueil PyTorch) et TensorFlow(page d'accueil TensorFlow). Des organisations de recherche comme DeepMind et des organismes universitaires comme l'Association for the Advancement of Artificial Intelligence (AAAI) continuent de faire progresser ce domaine passionnant.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers