Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Processus de décision markovien (MDP)

Découvrez les processus de décision markoviens (MDP) et leur rôle dans l'IA, l'apprentissage par renforcement, la robotique et la prise de décision dans le domaine de la santé.

Un processus de décision markovien (MDP) est un cadre mathématique complet utilisé pour modéliser la prise de décision dans des scénarios où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Il sert de base théorique à l'apprentissage par renforcement (RL), fournissant un moyen structuré de formaliser l'interaction entre un agent IA intelligent et son environnement. En décomposant les problèmes complexes en états, actions et récompenses, les MDP permettent aux chercheurs et aux ingénieurs de calculer les politiques optimales qui maximisent les objectifs à long terme, ce qui les rend essentiels pour les progrès dans des domaines allant de la robotique à la finance.

Les composantes essentielles d'un MDP

Un MDP définit un problème de prise de décision séquentielle à l'aide de composants distincts qui caractérisent la dynamique de l'environnement . Ces éléments permettent à un algorithme d'optimisation d'évaluer les conséquences de choix spécifiques au fil du temps :

  • Espace d'état (S): il représente l'ensemble de toutes les situations ou configurations possibles que l'agent peut occuper. Dans une tâche de navigation, l'état peut être les coordonnées GPS précises d'un véhicule.
  • Espace d'action (A): ensemble de tous les mouvements ou décisions valides disponibles pour l'agent dans un état donné.
  • Probabilité de transition : elle définit la probabilité de passer d'un état à un autre après avoir pris une mesure spécifique. Cette composante modélise l'incertitude inhérente à un processus stochastique, distinguant les MDP de la planification déterministe.
  • Fonction de récompense : signal de rétroaction critique qui attribue une valeur numérique au bénéfice immédiat d'une paire état-action. Cela guide l'agent vers des résultats souhaitables, de la même manière que les fonctions de perte guident l'apprentissage supervisé.
  • Facteur d'actualisation : paramètre qui détermine l'importance des récompenses futures par rapport aux récompenses immédiates , en équilibrant la planification à court terme et à long terme.

L'hypothèse centrale qui permet ce cadre est la propriété de Markov, qui stipule que la trajectoire future du processus dépend uniquement de l'état actuel, et non de l'historique de la manière dont l'agent est arrivé là.

Applications concrètes

Les MDP ne sont pas seulement des concepts théoriques ; ils permettent de résoudre des problèmes pratiques qui nécessitent adaptabilité et planification.

  • Véhicules autonomes: Les voitures autonomes utilisent des MDP pour prendre des décisions de conduite de haut niveau. L'« état » comprend la vitesse de la voiture, sa position sur la voie et l'emplacement des objets environnants détectés par les systèmes de vision par ordinateur (CV). Les « actions » comprennent la direction ou le freinage, et la « récompense » est optimisée pour la sécurité, l'efficacité et le confort des passagers.
  • Planification des traitements médicaux : dans le domaine de l' IA appliquée à la santé, les MDP aident à concevoir des traitements personnalisés pour les maladies chroniques. Les indicateurs de santé du patient représentent l'état, tandis que les dosages des médicaments ou les thérapies constituent les actions. L'objectif est de maximiser la qualité de vie à long terme du patient, souvent analysée à l'aide de l'imagerie médicale.
  • Optimisation des stocks : les détaillants utilisent les MDP pour gérer les niveaux de stocks. En modélisant les inventaires comme des états et les décisions de réapprovisionnement comme des actions, les entreprises peuvent minimiser les coûts de stockage tout en évitant les ruptures de stock, une stratégie clé de l'IA dans le commerce de détail.

Intégration de la vision pour l'observation de l'État

Dans de nombreuses applications modernes, l'état d'un MDP est dérivé de données visuelles. Des modèles de perception haute performance tels que YOLO26 traitent les flux vidéo pour créer des représentations structurées de l'état , telles que les coordonnées des obstacles, que l'agent décisionnaire peut comprendre.

Python suivant montre comment utiliser la fonction ultralytics paquetage permettant d'extraire des informations d'état (rectangles englobants) d'une image, qui pourraient ensuite être intégrées dans un réseau de politiques MDP.

from ultralytics import YOLO

# Load the latest YOLO26 model to serve as the perception system
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract the bounding box coordinates to form the state vector
for box in results[0].boxes:
    print(f"Detected State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Différencier le MDP des concepts connexes

Pour comprendre où se situent les MDP dans le paysage plus large du machine learning (ML), il faut les distinguer d'autres termes similaires :

  • Apprentissage par renforcement (RL): Bien qu'ils soient souvent abordés ensemble, un MDP est la formulation du problème, tandis que le RL est la méthode utilisée pour le résoudre lorsque les probabilités de transition ou les structures de récompense sont inconnues. Dans le RL, l'agent doit apprendre à connaître l' environnement par essais et erreurs, en trouvant un équilibre entre exploration et exploitation.
  • MDP partiellement observable (POMDP): Les MDP standard supposent que l'agent a une connaissance parfaite de l'état actuel. Dans les scénarios réels, comme la robotique via LiDAR, l'état est souvent bruité ou incomplet. Les POMDP étendent le cadre pour gérer cette incertitude en utilisant des distributions de probabilité sur les états possibles.
  • Apprentissage profond par renforcement (DRL): Lorsque l'espace d'états est trop vaste pour être tabulé (par exemple, les combinaisons de pixels dans un jeu vidéo), le DRL utilise des réseaux neuronaux pour estimer la valeur des états. Des frameworks tels que PyTorch sont couramment utilisés pour construire ces réseaux de politiques.

Outils et solveurs

La résolution de petits MDP peut être effectuée à l'aide de techniques de programmation dynamique telles que l'itération de valeur. Pour les environnements plus vastes et plus complexes, les chercheurs utilisent des plateformes de simulation telles que Gymnasium pour former les agents. Ces simulations permettent un apprentissage sûr et accéléré avant le déploiement de politiques dans des systèmes physiques tels que la robotique ou les contrôleurs industriels dans le domaine de la fabrication intelligente.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant