Découvre l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explore les concepts, les applications et les avantages !
L'apprentissage par renforcement (RL) est un type d'apprentissage automatique (ML) dans lequel un agent intelligent apprend à prendre une séquence de décisions en essayant de maximiser une récompense qu'il reçoit pour ses actions. Contrairement à l'apprentissage supervisé, qui apprend à partir d'exemples étiquetés, ou à l'apprentissage non supervisé, qui trouve des modèles dans les données non étiquetées, l'AR apprend par essais et erreurs en interagissant avec un environnement. L'agent reçoit un retour d'information sous forme de récompenses ou de pénalités en fonction des actions qu'il entreprend, ce qui oriente son processus d'apprentissage vers la réalisation d'un objectif spécifique.
Plusieurs éléments clés définissent un système d'apprentissage par renforcement :
Le compromis exploration-exploitation constitue un défi fondamental dans le RL : l'agent doit trouver un équilibre entre l'exploration de nouvelles actions pour découvrir des récompenses potentiellement plus élevées (exploration) et le choix d'actions connues pour donner de bonnes récompenses (exploitation).
Le processus RL est généralement itératif. L'agent observe l'état actuel de l'environnement, sélectionne une action en fonction de sa politique actuelle, exécute l'action et reçoit une récompense (ou une pénalité) et l'état suivant de l'environnement. Ce retour d'information est utilisé pour mettre à jour la politique ou la fonction de valeur de l'agent, améliorant ainsi sa prise de décision au fil du temps. Les algorithmes courants d'apprentissage par renforcement comprennent les méthodes d'apprentissage Q, SARSA et de gradient de politique, chacune employant des stratégies différentes pour l'apprentissage et la mise à jour de la politique. L'apprentissage par renforcement profond (DRL) combine l'apprentissage par renforcement profond avec des techniques d'apprentissage profond, en utilisant des réseaux neuronaux (NN) pour approximer les politiques ou les fonctions de valeur, ce qui permet à l'apprentissage par renforcement profond de s'attaquer à des problèmes avec des espaces d'état complexes et de haute dimension, comme les images ou les données de capteurs.
Le RL diffère considérablement des autres paradigmes de ML :
La RL a permis des avancées dans divers domaines :
L'apprentissage par renforcement est un élément crucial du paysage plus large de l'intelligence artificielle (IA), en particulier pour créer des systèmes autonomes capables de prendre des décisions complexes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles d'IA de vision comme... Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances à l'aide de l'apprentissage supervisé, les capacités de perception fournies par ces modèles sont souvent des entrées (états) essentielles pour les agents RL. Par exemple, un robot peut utiliser un modèle de détection d'objet déployé via Ultralytics HUB pour comprendre son environnement avant qu'une politique RL ne décide de son prochain mouvement. Comprendre le RL permet de comprendre comment la perception avancée s'intègre dans la construction de systèmes intelligents et autonomes, souvent développés à l'aide de frameworks tels que PyTorch et testés dans des environnements de simulation comme Gymnasium (anciennement OpenAI Gym). De nombreuses applications du monde réel impliquent l'intégration de la perception(vision par ordinateur) à la prise de décision (RL).