Glossaire

Apprentissage par renforcement profond

Découvrez la puissance de l'apprentissage par renforcement profond, qui permet à l'IA d'apprendre des comportements complexes pour résoudre des problèmes dans les domaines du jeu, de la robotique, des soins de santé et bien plus encore.

L'apprentissage par renforcement profond (DRL) est un sous-domaine de l'apprentissage automatique (ML) qui combine les principes de l'apprentissage par renforcement (RL) avec la puissance de l'apprentissage profond (DL). Il permet à un agent d'intelligence artificielle d'apprendre des stratégies de prise de décision optimales par essais et erreurs dans des environnements complexes et hautement dimensionnels. En utilisant des réseaux neuronaux profonds, les modèles d'apprentissage profond peuvent traiter des données sensorielles brutes, comme les pixels d'une image ou les données d'un capteur, sans qu'il soit nécessaire de procéder à une ingénierie manuelle des caractéristiques. Cela leur permet de s'attaquer à des problèmes qui étaient auparavant insolubles pour les méthodes RL traditionnelles.

Comment fonctionne l'apprentissage par renforcement profond

Dans une configuration DRL typique, un agent interagit avec un environnement au cours d'une série de pas de temps. À chaque étape, l'agent observe l'état de l'environnement, entreprend une action et reçoit une récompense ou une pénalité. L'objectif est d'apprendre une politique - une stratégie de choix des actions - qui maximise la récompense cumulative totale au fil du temps. La partie "profonde" de la DRL provient de l'utilisation d'un réseau neuronal profond pour approximer soit la politique elle-même, soit une fonction de valeur qui estime la désirabilité des états ou des actions. Ce réseau est formé à l'aide d'algorithmes tels que la descente de gradient pour ajuster les poids de son modèle en fonction des récompenses reçues. L'ensemble du processus est formalisé à l'aide d'un processus de décision de Markov (PDM), qui constitue le fondement mathématique de la modélisation de la prise de décision séquentielle.

Distinctions par rapport à d'autres concepts

Il est important de différencier la LRD des termes apparentés :

  • Apprentissage par renforcement (RL): Le DRL est une forme moderne et avancée de l'apprentissage par renforcement. Alors que l'apprentissage par renforcement traditionnel s'appuie souvent sur des tableaux ou des fonctions linéaires pour mettre en correspondance les états et les actions, il se heurte à de vastes espaces d'états (par exemple, toutes les combinaisons de pixels possibles sur un écran). La méthode DRL surmonte cette limitation en utilisant des réseaux neuronaux profonds comme puissants approximateurs de fonctions.
  • Apprentissage en profondeur (DL): L'apprentissage profond est la technologie qui permet à la DRL de traiter des données complexes. Alors que l'apprentissage profond est le plus souvent associé à l'apprentissage supervisé, où les modèles apprennent à partir d'ensembles de données étiquetés, la DRL apprend à partir de la rétroaction éparse des récompenses, ce qui la rend adaptée aux tâches d'optimisation et de contrôle.
  • Apprentissage supervisé: Ce paradigme d'apprentissage nécessite un ensemble de données étiquetées pour entraîner un modèle à faire des prédictions. En revanche, le DRL n'a pas besoin de données étiquetées ; il génère ses propres données en interagissant avec un environnement, guidé par un signal de récompense. Cela la rend très efficace pour les problèmes où les données étiquetées sont rares ou indisponibles.

Applications dans le monde réel

La DRL a permis des percées dans divers domaines complexes :

  • Jouer à des jeux : L'un des exemples les plus célèbres est AlphaGo de DeepMind, qui a battu le meilleur joueur de Go au monde. L'agent DRL a appris en jouant des millions de parties contre lui-même, en utilisant l'état visuel du plateau pour prendre des décisions stratégiques. De même, OpenAI Five a appris à jouer au jeu vidéo complexe Dota 2 à un niveau surhumain.
  • Robotique: La DRL est utilisée pour former des robots à des tâches complexes telles que la manipulation d'objets, la locomotion et l'assemblage. Par exemple, un robot peut apprendre à saisir des objets inconnus en traitant directement les données fournies par sa caméra et en recevant des récompenses positives en cas de saisie réussie, un sujet exploré dans les discussions sur le rôle de l'IA dans la robotique.
  • Véhicules autonomes: DRL aide à développer des politiques de contrôle sophistiquées pour la navigation, la planification de la trajectoire et la prise de décision dans des scénarios de trafic dynamiques, comme le détaillent les articles sur l'IA dans les voitures auto-conduites.
  • Gestion des ressources : La LRD peut optimiser des systèmes complexes tels que les réseaux énergétiques, le contrôle des feux de circulation et l'optimisation des réactions chimiques. Un exemple est l'utilisation de la DRL pour gérer les flux de circulation dans les villes intelligentes.
  • Systèmes de recommandation: La DRL peut optimiser la séquence des recommandations présentées à un utilisateur afin de maximiser l'engagement ou la satisfaction à long terme.
  • Santé : La DRL est étudiée pour découvrir les politiques de traitement optimales et les dosages de médicaments en fonction de l'état du patient, contribuant ainsi au domaine plus large de l'IA dans les soins de santé.

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement profond est à la pointe de la recherche en IA, repoussant les limites de l'autonomie des machines. Alors que des entreprises comme Ultralytics se concentrent principalement sur des modèles de vision de pointe comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, les sorties de ces systèmes de perception sont souvent des entrées cruciales pour les agents DRL. Par exemple, un robot peut utiliser un modèle Ultralytics YOLO déployé via Ultralytics HUB pour percevoir son environnement (représentation de l'état) avant qu'une politique de DRL ne décide de la prochaine action. La compréhension de la DRL permet de comprendre comment la perception avancée s'intègre dans des systèmes autonomes plus larges. Ce développement est souvent facilité par des cadres tels que PyTorch(page d'accueil PyTorch) et TensorFlow(page d'accueil TensorFlow) et testé dans des environnements de simulation tels que Gymnasium. Des organismes de recherche de premier plan comme DeepMind et des organismes universitaires comme l'Association for the Advancement of Artificial Intelligence (AAAI) continuent de faire progresser ce domaine passionnant.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers