Découvrez l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explorez les concepts, les applications et les avantages!
L'apprentissage par renforcement (AR) est un domaine de l'apprentissage automatique (AA) où un agent intelligent apprend à prendre des décisions optimales par essais et erreurs. Contrairement à d'autres paradigmes d'apprentissage, l'agent n'est pas informé des actions à entreprendre. Au lieu de cela, il interagit avec un environnement et reçoit un retour d'information sous forme de récompenses ou de pénalités. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps. Cette approche s'inspire de la psychologie comportementale et est particulièrement puissante pour résoudre les problèmes de prise de décision séquentielle, comme le souligne le texte fondateur de Sutton et Barto.
Le processus d'apprentissage par renforcement (RL) est modélisé comme une boucle de rétroaction continue impliquant plusieurs composantes clés :
L'agent observe l'état actuel de l'environnement, effectue une action et reçoit une récompense ainsi que l'état suivant. Ce cycle se répète, et grâce à cette expérience, l'agent affine progressivement sa politique pour favoriser les actions qui mènent à des récompenses à long terme plus élevées. Le cadre formel de ce problème est souvent décrit par un Processus de décision markovien (MDP). Les algorithmes RL populaires incluent Q-learning et les Policy Gradients.
L'AR se distingue des autres principaux types d'apprentissage automatique :
L'AR a connu un succès remarquable dans divers domaines complexes :
L'apprentissage par renforcement est un élément essentiel du paysage plus large de l'intelligence artificielle (IA), en particulier pour la création de systèmes autonomes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles de vision IA comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances en utilisant l'apprentissage supervisé, les capacités de perception de ces modèles sont des entrées essentielles pour les agents RL.
Par exemple, un robot pourrait utiliser un modèle YOLO pour la perception, déployé via Ultralytics HUB, afin de comprendre son environnement (l'« état »). Une politique de RL utilise ensuite ces informations pour décider de son prochain mouvement. Cette synergie entre la vision par ordinateur (CV) pour la perception et le RL pour la prise de décision est fondamentale pour la construction de systèmes intelligents. Ces systèmes sont souvent développés à l'aide de frameworks tels que PyTorch et TensorFlow et sont fréquemment testés dans des environnements de simulation standardisés tels que Gymnasium (anciennement OpenAI Gym). Pour améliorer l'alignement du modèle sur les préférences humaines, des techniques telles que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) sont également de plus en plus importantes dans le domaine. Les progrès en matière de RL sont continuellement stimulés par des organisations telles que DeepMind et des conférences universitaires telles que NeurIPS.