Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement profond

Découvrez la puissance de l'apprentissage par renforcement profond, où l'IA apprend des comportements complexes pour résoudre des défis dans les jeux, la robotique, la santé et bien plus encore.

L'apprentissage par renforcement profond (DRL) est un sous-domaine avancé de l'apprentissage automatique (ML) qui combine l'apprentissage par renforcement profond et l'apprentissage par renforcement profond. l 'apprentissage machine (ML) qui combine les cadres cadres décisionnels de l'apprentissage par l'apprentissage par renforcement et les puissantes puissantes capacités de perception de l'apprentissage profond (DL). Alors que l'apprentissage par renforcement traditionnel s'appuie sur des essais et des erreurs pour optimiser le comportement dans des environnements simples, le DRL intègre des réseaux neuronaux multicouches pour pour interpréter des données sensorielles à haute dimension, telles que des images vidéo ou des relevés de capteurs complexes. Cette intégration permet à un d ' apprendre des stratégies sophistiquées pour résoudre des problèmes insolubles dans des environnements dynamiques et non structurés, allant de la navigation autonome au jeu stratégique. stratégiques.

Les mécanismes de l'apprentissage par renforcement profond

Au cœur de la LRD se trouve l'interaction entre un agent et son environnement, souvent modélisée mathématiquement sous la forme d'un processus de décision de Markov (PDM). processus de décision de Markov (PDM). Contrairement à l'apprentissage l'apprentissage supervisé, où un modèle est formé sur un ensemble de données étiquetées avec des réponses correctes connues, un agent DRL apprend en explorant. apprend en explorant. Il observe l'état actuel, entreprend une action et reçoit un signal de retour appelé "récompense". "récompense".

Pour traiter des données complexes, la DRL utilise réseaux neuronaux convolutifs (CNN) ou d'autres architectures profondes pour estimer la valeur d'actions spécifiques. Grâce à des processus tels que la rétropropagation et gradient, le réseau ajuste les poids de son les poids de son modèle afin de maximiser les récompenses cumulées au fil du temps. au fil du temps. Des algorithmes tels que Deep Q-Networks (DQN) et Optimisation de la politique proximale (PPO) sont essentiels pour stabiliser ce processus d'apprentissage, ce qui permet aux agents de généraliser leur apprentissage à de nouvelles situations inédites.

Applications concrètes

La polyvalence des feux de circulation diurne a conduit à des applications transformatrices dans divers secteurs d'activité :

  • Robotique avancée : Dans le domaine de l l 'IA en robotique, la LRD permet aux machines de maîtriser des capacités motrices complexes. Par exemple, les robots peuvent apprendre à manipuler des objets ou à marcher sur un terrain accidenté en en affinant continuellement leurs mouvements à l'aide d'environnements de simulation physique tels que NVIDIA Isaac Sim.
  • Systèmes autonomes : Les véhicules autonomes exploitent les DRL pour prendre des décisions en temps réel dans des conditions de circulation imprévisibles. prendre des décisions en temps réel dans un trafic imprévisible. En traitant les données fournies par le LiDAR et les caméras, ces systèmes apprennent des règles de conduite sûres pour la fusion des voies et la navigation aux intersections. de conduite sûre pour la fusion des voies et la navigation aux intersections, en utilisant souvent la vision par ordinateur pour analyser les données visuelles. vision par ordinateur pour analyser la scène visuelle. visuelle.
  • Jeux stratégiques : Le DRL a acquis une renommée mondiale lorsque des systèmes tels qu'AlphaGo de DeepMind ont battu des champions du monde humains. AlphaGo de DeepMind ont battu des champions du monde humains. Ces agents Ces agents explorent des millions de stratégies potentielles en simulation, découvrant de nouvelles tactiques qui surpassent l'intuition humaine. l'intuition humaine.

Intégration de la vision par ordinateur en tant qu'observateur de l'état

Pour de nombreuses applications DRL, l'"état" représente une information visuelle. Les modèles de détection d'objets de détection d'objets à grande vitesse peuvent servir d'yeux à l'agent l'agent, convertissant les pixels bruts en données structurées sur lesquelles le réseau politique peut agir.

L'exemple suivant illustre comment YOLO11 peut être utilisé pour pour extraire des observations d'état pour un agent DRL :

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinguer la LRD des concepts apparentés

Il est utile de différencier l'apprentissage par renforcement profond des termes similaires pour comprendre sa position unique dans le paysage de l'IA. dans le paysage de l'IA :

  • Apprentissage par renforcement (AR): L'apprentissage par renforcement standard est le concept fondamental, mais il s'appuie souvent sur des tables de recherche (comme les tables Q) qui ne sont pas pratiques pour les grands espaces d'état. pour les grands espaces d'état. Le DRL résout ce problème en utilisant l'apprentissage profond pour approximer les politiques. l 'apprentissage profond pour approximer les politiques, ce qui politiques, ce qui lui permet de gérer des entrées complexes telles que des images.
  • Apprentissage par renforcement à partir du feedback humain (RLHF): Alors que le DRL optimise généralement une fonction de récompense définie mathématiquement (par exemple, les points dans un jeu), le RLHF affine les modèles - en particulier le modèle de l'homme - de manière à ce qu'ils soient plus faciles à comprendre et à utiliser. modèles, en particulier modèles, en particulier les grands modèles de langage (LLM), en utilisant préférences humaines subjectives pour aligner le comportement de l'IA sur les valeurs humaines.
  • Apprentissage non supervisé: Les méthodes non supervisées recherchent des modèles cachés dans les données sans retour d'information explicite. En revanche, la méthode DRL est orientée vers un but, Elle est motivée par un signal de récompense qui guide l'agent vers un objectif spécifique.

Outils et frameworks

Le développement de systèmes DRL nécessite des écosystèmes logiciels robustes. Les chercheurs s'appuient sur des cadres tels que PyTorch et TensorFlow pour construire les réseaux neuronaux sous-jacents. Ces outils sont souvent couplés à des bibliothèques d'interface standard telles que Gymnasium (anciennement OpenAI Gym), qui fournissent une collection d'environnements pour tester et évaluer les algorithmes. environnements pour tester et évaluer les algorithmes. L'entraînement de ces modèles est très gourmand en ressources informatiques, ce qui nécessite souvent des GPU très performants. nécessitant souvent des GPU très performants pour pour traiter les millions d'étapes de simulation nécessaires à la convergence.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant