Glossaire

Apprentissage par renforcement

Découvrez l'apprentissage par renforcement, où les agents optimisent leurs actions par essais et erreurs afin de maximiser les récompenses. Explorez les concepts, les applications et les avantages !

L'apprentissage par renforcement (AR) est un type d'apprentissage automatique dans lequel un agent intelligent apprend à prendre une séquence de décisions en essayant de maximiser la récompense qu'il reçoit pour ses actions. Contrairement à l'apprentissage supervisé, qui apprend à partir d'exemples étiquetés, ou à l'apprentissage non supervisé, qui trouve des modèles dans des données non étiquetées, l'apprentissage par renforcement apprend par essais et erreurs en interagissant avec un environnement. L'agent reçoit un retour d'information sous forme de récompenses ou de pénalités en fonction des actions qu'il entreprend, ce qui oriente son processus d'apprentissage vers la réalisation d'un objectif spécifique.

Concepts de base

Plusieurs éléments clés définissent un système d'apprentissage par renforcement :

  • Agent : L'apprenant ou l'entité décisionnelle qui interagit avec l'environnement.
  • Environnement : Le système ou le monde extérieur dans lequel l'agent opère.
  • État : Une représentation de la situation actuelle ou de la configuration de l'environnement perçue par l'agent.
  • Action : Une décision ou un mouvement pris par l'agent dans l'environnement.
  • Récompense : Un signal numérique reçu de l'environnement après l'exécution d'une action, indiquant à quel point cette action était bonne ou mauvaise dans un état particulier. L'objectif de l'agent est généralement de maximiser la récompense cumulée au fil du temps.
  • Politique : La stratégie ou le schéma que l'agent utilise pour déterminer la prochaine action en fonction de l'état actuel. C'est essentiellement ce que l'agent apprend.
  • Fonction de valeur : Prévision des récompenses futures attendues à partir d'un état donné ou en entreprenant une action spécifique dans un état donné, en suivant une politique particulière.
  • Processus de décision de Markov (PDM) : Un cadre mathématique couramment utilisé pour modéliser les problèmes de NR, définissant les interactions entre l'agent et l'environnement.

Le compromis exploration-exploitation constitue un défi fondamental dans le domaine de la RL : l'agent doit trouver un équilibre entre l'exploration de nouvelles actions pour découvrir des récompenses potentiellement plus élevées (exploration) et le choix d'actions connues pour donner lieu à de bonnes récompenses (exploitation).

Comment fonctionne l'apprentissage par renforcement

Le processus RL est généralement itératif. L'agent observe l'état actuel de l'environnement, sélectionne une action sur la base de sa politique actuelle, exécute l'action et reçoit une récompense (ou une pénalité) et l'état suivant de l'environnement. Ce retour d'information est utilisé pour mettre à jour la politique ou la fonction de valeur de l'agent, améliorant ainsi sa prise de décision au fil du temps. Les algorithmes courants d'apprentissage par renforcement comprennent les méthodes d'apprentissage Q, SARSA et de gradient de politique, chacune employant des stratégies différentes pour l'apprentissage et la mise à jour de la politique. L'apprentissage par renforcement en profondeur (DRL) combine l'apprentissage par renforcement avec des techniques d'apprentissage en profondeur, en utilisant des réseaux neuronaux (NN) pour approximer les politiques ou les fonctions de valeur, ce qui permet à l'apprentissage par renforcement de s'attaquer à des problèmes avec des espaces d'état complexes et de haute dimension, comme les images ou les données de capteurs.

Comparaison avec d'autres paradigmes d'apprentissage

Le RL diffère considérablement des autres paradigmes de ML :

  • Apprentissage supervisé: Apprentissage à partir d'un ensemble de données contenant des exemples étiquetés (paires entrée-sortie). L'objectif est d'apprendre une fonction de correspondance qui prédit les sorties pour de nouvelles entrées. Les exemples incluent la classification d'images et la régression. Le RL apprend par l'interaction et le retour d'information (récompenses), et non par des réponses correctes prédéfinies.
  • Apprentissage non supervisé: Apprentissage de modèles et de structures à partir de données non étiquetées. Les exemples incluent le regroupement et la réduction de la dimensionnalité. Le RL est orienté vers un objectif, l'apprentissage d'une politique visant à maximiser les récompenses, tandis que l'apprentissage non supervisé se concentre sur la découverte de structures de données.

Applications dans le monde réel

La RL a permis des percées dans divers domaines :

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement est une composante essentielle du paysage de l'intelligence artificielle (IA), en particulier pour la création de systèmes autonomes capables de prendre des décisions complexes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles d'IA de vision comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances à l'aide de l'apprentissage supervisé, les capacités de perception fournies par ces modèles sont souvent des entrées (états) essentielles pour les agents RL. Par exemple, un robot peut utiliser un modèle de détection d'objet déployé via Ultralytics HUB pour comprendre son environnement avant qu'une politique RL ne décide de son prochain mouvement. La compréhension de la RL permet de comprendre comment la perception avancée s'intègre dans la construction de systèmes intelligents et autonomes, souvent développés à l'aide de cadres tels que PyTorch et testés dans des environnements de simulation tels que Gymnasium (anciennement OpenAI Gym). De nombreuses applications du monde réel impliquent l'intégration de la perception(vision par ordinateur) et de la prise de décision (RL).

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers