Glossaire

Apprentissage par renforcement profond

Découvrez la puissance de l'apprentissage par renforcement profond, où l'IA apprend des comportements complexes pour résoudre des défis dans les jeux, la robotique, la santé et bien plus encore.

L'apprentissage par renforcement profond (DRL) est un sous-domaine de l'apprentissage automatique (ML) qui combine les principes de l'apprentissage par renforcement (RL) avec la puissance de l'apprentissage profond (DL). Il permet à un agent d'IA d'apprendre des stratégies de prise de décision optimales par essais et erreurs dans des environnements complexes et de haute dimension. En utilisant des réseaux neuronaux profonds, les modèles DRL peuvent traiter des entrées sensorielles brutes, comme des pixels d'une image ou des données de capteurs, sans avoir besoin d'une ingénierie des caractéristiques manuelle. Cela leur permet de s'attaquer à des problèmes qui étaient auparavant insolubles pour les méthodes RL traditionnelles.

Comment fonctionne l'apprentissage par renforcement profond

Dans une configuration typique de DRL, un agent interagit avec un environnement sur une série d'étapes temporelles. À chaque étape, l'agent observe l'état de l'environnement, prend une mesure et reçoit une récompense ou une pénalité. L'objectif est d'apprendre une politique — une stratégie pour choisir les mesures — qui maximise la récompense cumulative totale au fil du temps. La partie « profonde » de la DRL provient de l'utilisation d'un réseau neuronal profond pour approximer soit la politique elle-même, soit une fonction de valeur qui estime l'opportunité des états ou des mesures. Ce réseau est entraîné à l'aide d'algorithmes comme la descente de gradient pour ajuster les poids du modèle en fonction des récompenses reçues. L'ensemble de ce processus est formalisé à l'aide d'un processus de décision markovien (MDP), qui fournit la base mathématique pour la modélisation de la prise de décision séquentielle.

Distinctions par rapport à d'autres concepts

Il est important de différencier l'apprentissage par renforcement profond (DRL) des termes connexes :

Apprentissage par renforcement (RL) : Le DRL est une forme moderne et avancée de RL. Alors que le RL traditionnel repose souvent sur des tableaux ou des fonctions linéaires pour mapper les états aux actions, il est aux prises avec de grands espaces d’états (p. ex., toutes les combinaisons de pixels possibles sur un écran). Le DRL surmonte cette limitation en utilisant des réseaux neuronaux profonds comme approximateurs de fonctions puissants.
Apprentissage profond (DL) : Le DL est la technologie qui permet au DRL de traiter des entrées complexes. Bien que le DL soit le plus souvent associé à l'apprentissage supervisé, où les modèles apprennent à partir d'ensembles de données étiquetés, le DRL apprend à partir de la rétroaction clairsemée des récompenses, ce qui le rend approprié pour les tâches d'optimisation et de contrôle.
Apprentissage supervisé : Ce paradigme d'apprentissage nécessite un ensemble de données étiquetées pour entraîner un modèle à faire des prédictions. En revanche, DRL n'a pas besoin de données étiquetées ; au lieu de cela, il génère ses propres données par le biais d'une interaction avec un environnement, guidée par un signal de récompense. Cela le rend très efficace pour les problèmes où les données étiquetées sont rares ou indisponibles.

Applications concrètes

L'ARL a permis des avancées majeures dans divers domaines complexes :

Jeux : L'un des exemples les plus célèbres est AlphaGo de DeepMind, qui a vaincu le meilleur joueur de Go au monde. L'agent DRL a appris en jouant des millions de parties contre lui-même, en utilisant l'état visuel du plateau pour prendre des décisions stratégiques. De même, OpenAI Five a appris à jouer au jeu vidéo complexe Dota 2 à un niveau surhumain.
Robotique : La DRL est utilisée pour entraîner les robots à effectuer des tâches complexes comme la manipulation d'objets, la locomotion et l'assemblage. Par exemple, un robot peut apprendre à ramasser des objets inconnus en traitant directement les entrées de sa caméra et en recevant des récompenses positives pour les prises réussies, un sujet exploré dans les discussions sur le rôle de l'IA dans la robotique.
Véhicules autonomes : L'apprentissage par renforcement profond (DRL) aide à développer des politiques de contrôle sophistiquées pour la navigation, la planification de trajectoire et la prise de décision dans des scénarios de circulation dynamiques, comme le détaillent les articles sur l'IA dans les voitures autonomes.
Gestion des ressources : La DRL peut optimiser des systèmes complexes tels que les réseaux énergétiques, le contrôle des feux de circulation et l'optimisation des réactions chimiques. Un exemple est l'utilisation de la DRL pour gérer le flux de trafic dans les villes intelligentes.
Systèmes de recommandation : L’apprentissage par renforcement profond (DRL) peut optimiser la séquence de recommandations présentées à un utilisateur afin de maximiser l’engagement ou la satisfaction à long terme.
Santé : L'apprentissage par renforcement profond est exploré pour découvrir les politiques de traitement et les dosages de médicaments optimaux en fonction de l'état des patients, contribuant ainsi au domaine plus vaste de l'IA dans le domaine de la santé.

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement profond est à l'avant-garde de la recherche en IA, repoussant les limites de l'autonomie des machines. Alors que des entreprises comme Ultralytics se concentrent principalement sur des modèles de vision de pointe comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, les sorties de ces systèmes de perception sont souvent des entrées cruciales pour les agents DRL. Par exemple, un robot pourrait utiliser un modèle Ultralytics YOLO déployé via Ultralytics HUB pour percevoir son environnement (représentation de l'état) avant qu'une politique DRL ne décide de la prochaine action. Comprendre le DRL fournit un contexte pour la façon dont la perception avancée s'intègre dans des systèmes autonomes plus larges. Ce développement est souvent facilité par des frameworks comme PyTorch (page d'accueil de PyTorch) et TensorFlow (page d'accueil de TensorFlow) et testé dans des environnements de simulation tels que Gymnasium. Les principales organisations de recherche comme DeepMind et les organismes universitaires comme l'Association for the Advancement of Artificial Intelligence (AAAI) continuent de faire progresser ce domaine passionnant.

Apprentissage par renforcement profond

Entraînez les modèles Ultralytics YOLO pour rationaliser les flux de travail dans tous les secteurs

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Entraînez des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne l'apprentissage par renforcement profond

Distinctions par rapport à d'autres concepts

Applications concrètes

Pertinence dans l'écosystème de l'IA

En savoir plus dans cette catégorie

Points forts d'Ultralytics à la conférence PyTorch 2025

Utilisation de l'apprentissage auto-supervisé pour le débruitage des images

L'IA de Vision alimente les systèmes de surveillance de l'attention des conducteurs

Rejoignez la communauté Ultralytics