Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Deep Reinforcement Learning

Explore l'apprentissage par renforcement profond (DRL) et comment il combine la prise de décision par l'IA avec l'apprentissage profond. Apprends à utiliser Ultralytics YOLO26 comme couche de perception dès aujourd'hui.

L'apprentissage par renforcement profond (DRL) est un sous-domaine avancé de l'intelligence artificielle (IA) qui associe les capacités de prise de décision de l'apprentissage par renforcement à la puissance perceptive de l'apprentissage profond (DL). Alors que l'apprentissage par renforcement traditionnel s'appuie sur des méthodes tabulaires pour mapper des situations à des actions, ces méthodes sont inefficaces lorsque l'environnement est complexe ou visuel. Le DRL surmonte cela en utilisant des réseaux de neurones pour interpréter des données d'entrée de haute dimension, telles que des images vidéo ou des relevés de capteurs, permettant aux machines d'apprendre des stratégies efficaces directement à partir d'une expérience brute sans instruction humaine explicite.

Link to this sectionLe mécanisme central du DRL#

Dans un système DRL, un agent IA interagit avec un environnement par étapes temporelles discrètes. À chaque étape, l'agent observe l'« état » actuel, sélectionne une action basée sur une politique et reçoit un signal de récompense indiquant le succès ou l'échec de cette action. L'objectif principal est de maximiser la récompense cumulée au fil du temps.

La composante « profond » fait référence à l'utilisation de réseaux de neurones profonds pour approximer la politique (la stratégie d'action) ou la fonction de valeur (la récompense future estimée). Cela permet à l'agent de traiter des données non structurées, en utilisant la vision par ordinateur (CV) pour « voir » l'environnement presque comme un humain. Cette capacité est propulsée par des frameworks comme PyTorch ou TensorFlow, qui facilitent l'entraînement de ces réseaux complexes.

Link to this sectionApplications concrètes#

Le DRL a dépassé la recherche théorique pour atteindre des applications pratiques à fort impact dans divers secteurs :

  • Robotique avancée : Dans le domaine de l'IA en robotique, le DRL permet aux machines de maîtriser des compétences motrices complexes difficiles à coder manuellement. Les robots peuvent apprendre à saisir des objets irréguliers ou à traverser des terrains accidentés en affinant leurs mouvements au sein de moteurs physiques comme NVIDIA Isaac Sim. Cela implique souvent un entraînement sur des données synthétiques avant de déployer la politique sur du matériel physique.
  • Conduite autonome : Les véhicules autonomes exploitent le DRL pour prendre des décisions en temps réel dans des scénarios de circulation imprévisibles. Alors que les modèles de détection d'objets identifient les piétons et les panneaux, les algorithmes DRL utilisent ces informations pour déterminer des politiques de conduite sûres pour l'insertion sur voie, la navigation aux intersections et le contrôle de la vitesse, gérant efficacement la latence d'inférence requise pour la sécurité.

Link to this sectionLa vision en tant qu'observateur d'état#

Pour de nombreuses applications DRL, l'« état » est visuel. Des modèles à haute vitesse agissent comme les yeux de l'agent, convertissant des images brutes en données structurées sur lesquelles le réseau de politique peut agir. L'exemple suivant illustre comment le modèle YOLO26 sert de couche de perception pour un agent, en extrayant des observations (par ex. le nombre d'obstacles) de l'environnement.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionDistinguer le DRL des concepts connexes#

Il est utile de différencier l'apprentissage par renforcement profond des termes similaires pour comprendre sa position unique dans le paysage de l'IA :

  • Apprentissage par renforcement (RL) : Le RL standard est le concept fondateur mais repose généralement sur des tables de correspondance (comme les tables Q) qui deviennent impraticables pour de grands espaces d'états. Le DRL résout ce problème en utilisant l'apprentissage profond pour approximer les fonctions, lui permettant de gérer des entrées complexes comme des images.
  • Apprentissage par renforcement à partir de rétroaction humaine (RLHF) : Alors que le DRL optimise généralement une fonction de récompense définie mathématiquement (par ex. des points dans un jeu), le RLHF affine les modèles — en particulier les grands modèles de langage (LLM) — en utilisant des préférences humaines subjectives pour aligner le comportement de l'IA sur les valeurs humaines, une technique popularisée par des groupes de recherche comme OpenAI.
  • Apprentissage non supervisé : Les méthodes non supervisées recherchent des modèles cachés dans les données sans retour explicite. En revanche, le DRL est orienté vers un but, piloté par un signal de récompense qui guide activement l'agent vers un objectif spécifique, comme l'expliquent les textes fondateurs de Sutton et Barto.

Les développeurs cherchant à gérer les jeux de données requis pour les couches de perception des systèmes DRL peuvent utiliser la plateforme Ultralytics, qui simplifie les flux de travail d'annotation et d'entraînement dans le cloud. De plus, les chercheurs utilisent souvent des environnements standardisés comme Gymnasium pour comparer leurs algorithmes DRL par rapport à des références établies.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique