Découvrez les concepts fondamentaux de l'apprentissage par renforcement (RL). Apprenez comment les agents utilisent le retour d'information pour maîtriser des tâches et découvrez comment Ultralytics alimente les systèmes de vision RL.
L'apprentissage par renforcement (RL) est un sous-ensemble orienté vers les objectifs de l' apprentissage automatique (ML) dans lequel un système autonome, appelé agent, apprend à prendre des décisions en effectuant des actions et en recevant des retours d'information de son environnement. Contrairement à l'apprentissage supervisé, qui s'appuie sur des ensembles de données statiques étiquetés avec les bonnes réponses, les algorithmes RL apprennent grâce à un processus dynamique d'essais et d'erreurs. L'agent interagit avec une simulation ou le monde réel, observant les conséquences de ses actions afin de déterminer quelles stratégies rapportent les récompenses les plus élevées à long terme. Cette approche imite étroitement le concept psychologique du conditionnement opérant, dans lequel le comportement est façonné par le renforcement positif (récompenses) et le renforcement négatif (punitions) au fil du temps.
Pour comprendre le fonctionnement du RL, il est utile de le visualiser comme un cycle continu d'interactions. Ce cadre est souvent formalisé mathématiquement sous la forme d'un processus de décision markovien (MDP), qui structure la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie contrôlés par le décideur.
Les principaux éléments de ce cycle d'apprentissage sont les suivants :
L'apprentissage par renforcement a dépassé le stade de la recherche théorique pour être déployé de manière pratique et avec un impact important dans divers secteurs.
Dans de nombreuses applications modernes, l'« état » observé par un agent est visuel. Des modèles hautement performants tels que YOLO26 agissent comme couche de perception pour les agents RL, convertissant les images brutes en données structurées. Ces informations traitées, telles que l'emplacement et la classe des objets, deviennent l' état que la politique RL utilise pour choisir une action.
L'exemple suivant montre comment utiliser la fonction ultralytics paquetage permettant de traiter une trame d'environnement,
en créant une représentation d'état (par exemple, le nombre d'objets) pour une boucle RL théorique.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Il est important de distinguer l'apprentissage par renforcement des autres paradigmes d'apprentissage automatique :
À mesure que la puissance de calcul augmente, des techniques telles que l' apprentissage par renforcement à partir du retour d'information humain (RLHF) affinent davantage la manière dont les agents apprennent, en alignant leurs objectifs plus étroitement sur les valeurs humaines complexes et les normes de sécurité . Les chercheurs utilisent souvent des environnements standardisés tels que Gymnasium pour évaluer et améliorer ces algorithmes. Pour les équipes qui cherchent à gérer les ensembles de données nécessaires aux couches de perception de ces agents, Ultralytics offre des outils complets pour l'annotation et la gestion des modèles.