Découvrez la puissance de l'apprentissage par renforcement profond, qui permet à l'IA d'apprendre des comportements complexes pour résoudre des problèmes dans les domaines du jeu, de la robotique, des soins de santé et bien plus encore.
L'apprentissage par renforcement profond (DRL) est un sous-domaine de l'apprentissage automatique (ML) qui combine les principes de l'apprentissage par renforcement (RL) avec la puissance de l'apprentissage profond (DL). Il permet à un agent d'intelligence artificielle d'apprendre des stratégies de prise de décision optimales par essais et erreurs dans des environnements complexes et hautement dimensionnels. En utilisant des réseaux neuronaux profonds, les modèles d'apprentissage profond peuvent traiter des données sensorielles brutes, comme les pixels d'une image ou les données d'un capteur, sans qu'il soit nécessaire de procéder à une ingénierie manuelle des caractéristiques. Cela leur permet de s'attaquer à des problèmes qui étaient auparavant insolubles pour les méthodes RL traditionnelles.
Dans une configuration DRL typique, un agent interagit avec un environnement au cours d'une série de pas de temps. À chaque étape, l'agent observe l'état de l'environnement, entreprend une action et reçoit une récompense ou une pénalité. L'objectif est d'apprendre une politique - une stratégie de choix des actions - qui maximise la récompense cumulative totale au fil du temps. La partie "profonde" de la DRL provient de l'utilisation d'un réseau neuronal profond pour approximer soit la politique elle-même, soit une fonction de valeur qui estime la désirabilité des états ou des actions. Ce réseau est formé à l'aide d'algorithmes tels que la descente de gradient pour ajuster les poids de son modèle en fonction des récompenses reçues. L'ensemble du processus est formalisé à l'aide d'un processus de décision de Markov (PDM), qui constitue le fondement mathématique de la modélisation de la prise de décision séquentielle.
Il est important de différencier la LRD des termes apparentés :
La DRL a permis des percées dans divers domaines complexes :
L'apprentissage par renforcement profond est à la pointe de la recherche en IA, repoussant les limites de l'autonomie des machines. Alors que des entreprises comme Ultralytics se concentrent principalement sur des modèles de vision de pointe comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, les sorties de ces systèmes de perception sont souvent des entrées cruciales pour les agents DRL. Par exemple, un robot peut utiliser un modèle Ultralytics YOLO déployé via Ultralytics HUB pour percevoir son environnement (représentation de l'état) avant qu'une politique de DRL ne décide de la prochaine action. La compréhension de la DRL permet de comprendre comment la perception avancée s'intègre dans des systèmes autonomes plus larges. Ce développement est souvent facilité par des cadres tels que PyTorch(page d'accueil PyTorch) et TensorFlow(page d'accueil TensorFlow) et testé dans des environnements de simulation tels que Gymnasium. Des organismes de recherche de premier plan comme DeepMind et des organismes universitaires comme l'Association for the Advancement of Artificial Intelligence (AAAI) continuent de faire progresser ce domaine passionnant.