Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement

Découvrez l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explorez les concepts, les applications et les avantages!

L'apprentissage par renforcement (AR) est un domaine de l'apprentissage automatique (AA) où un agent intelligent apprend à prendre des décisions optimales par essais et erreurs. Contrairement à d'autres paradigmes d'apprentissage, l'agent n'est pas informé des actions à entreprendre. Au lieu de cela, il interagit avec un environnement et reçoit un retour d'information sous forme de récompenses ou de pénalités. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps. Cette approche s'inspire de la psychologie comportementale et est particulièrement puissante pour résoudre les problèmes de prise de décision séquentielle, comme le souligne le texte fondateur de Sutton et Barto.

Comment fonctionne l'apprentissage par renforcement

Le processus d'apprentissage par renforcement (RL) est modélisé comme une boucle de rétroaction continue impliquant plusieurs composantes clés :

  • Agent : L'apprenant et le décideur, tel qu'un robot ou un programme de jeu.
  • Environnement : Le monde extérieur avec lequel l'agent interagit.
  • État : Un instantané de l'environnement à un moment précis, fournissant à l'agent les informations dont il a besoin pour prendre une décision.
  • Action : Un mouvement sélectionné par l'agent parmi un ensemble d'options possibles.
  • Récompense : Un signal numérique envoyé par l'environnement à l'agent après chaque action, indiquant à quel point l'action était souhaitable.

L'agent observe l'état actuel de l'environnement, effectue une action et reçoit une récompense ainsi que l'état suivant. Ce cycle se répète, et grâce à cette expérience, l'agent affine progressivement sa politique pour favoriser les actions qui mènent à des récompenses à long terme plus élevées. Le cadre formel de ce problème est souvent décrit par un Processus de décision markovien (MDP). Les algorithmes RL populaires incluent Q-learning et les Policy Gradients.

Comparaison avec d'autres paradigmes d'apprentissage

L'AR se distingue des autres principaux types d'apprentissage automatique :

Applications concrètes

L'AR a connu un succès remarquable dans divers domaines complexes :

  • Jeux: Les agents RL ont atteint des performances surhumaines dans des jeux complexes. Un exemple important est AlphaGo de DeepMind, qui a appris à vaincre les meilleurs joueurs de Go du monde. Un autre est le travail d'OpenAI sur Dota 2, où un agent a appris des stratégies d'équipe complexes.
  • Robotique : L'apprentissage par renforcement est utilisé pour entraîner les robots à effectuer des tâches complexes telles que la manipulation d'objets, l'assemblage et la locomotion. Au lieu d'être explicitement programmé, un robot peut apprendre à marcher ou à saisir des objets en étant récompensé pour les tentatives réussies dans un environnement simulé ou réel. Il s'agit d'un domaine de recherche clé dans des institutions comme le Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Gestion des ressources : Optimisation des opérations dans des systèmes complexes, tels que la gestion du flux de trafic dans les villes, l'équilibrage de la charge dans les réseaux énergétiques et l'optimisation des réactions chimiques.
  • Systèmes de recommandation : L’apprentissage par renforcement (RL) peut être utilisé pour optimiser la séquence d’éléments recommandés à un utilisateur afin de maximiser l’engagement et la satisfaction à long terme, plutôt que de simples clics immédiats.

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement est un élément essentiel du paysage plus large de l'intelligence artificielle (IA), en particulier pour la création de systèmes autonomes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles de vision IA comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances en utilisant l'apprentissage supervisé, les capacités de perception de ces modèles sont des entrées essentielles pour les agents RL.

Par exemple, un robot pourrait utiliser un modèle YOLO pour la perception, déployé via Ultralytics HUB, afin de comprendre son environnement (l'« état »). Une politique de RL utilise ensuite ces informations pour décider de son prochain mouvement. Cette synergie entre la vision par ordinateur (CV) pour la perception et le RL pour la prise de décision est fondamentale pour la construction de systèmes intelligents. Ces systèmes sont souvent développés à l'aide de frameworks tels que PyTorch et TensorFlow et sont fréquemment testés dans des environnements de simulation standardisés tels que Gymnasium (anciennement OpenAI Gym). Pour améliorer l'alignement du modèle sur les préférences humaines, des techniques telles que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) sont également de plus en plus importantes dans le domaine. Les progrès en matière de RL sont continuellement stimulés par des organisations telles que DeepMind et des conférences universitaires telles que NeurIPS.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers