Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Markov-Entscheidungsprozess (Markov Decision Process, MDP)

Entdecken Sie die Grundlagen von Markov-Entscheidungsprozessen (MDP). Erfahren Sie, wie MDPs das verstärkende Lernen vorantreiben und wie Ultralytics Echtzeit-Zustandsdaten bereitstellt.

Ein Markov-Entscheidungsprozess (MDP) ist ein mathematisches Modell, das zur Modellierung von Entscheidungsprozessen in Situationen verwendet wird, in denen die Ergebnisse teilweise zufällig und teilweise unter der Kontrolle eines Entscheidungsträgers liegen. Es ist die grundlegende Blaupause für das verstärkende Lernen (RL) und bietet eine strukturierte Möglichkeit für einen KI-Agenten, mit einer Umgebung zu interagieren, um ein bestimmtes Ziel zu erreichen. Im Gegensatz zum standardmäßigen überwachten Lernen, das auf statischen beschrifteten Datensätzen basiert, konzentriert sich ein MDP auf sequenzielle Entscheidungsfindung, bei der aktuelle Handlungen zukünftige Möglichkeiten beeinflussen.

Kernkomponenten eines MDP

Um zu verstehen, wie ein MDP funktioniert, ist es hilfreich, es sich als einen Interaktionszyklus zwischen einem Agenten und seiner Umgebung vorzustellen. Dieser Zyklus wird durch fünf Schlüsselkomponenten definiert:

  • Zustand: Die aktuelle Situation oder Konfiguration der Umgebung. Bei autonomen Fahrzeugen kann der Zustand die Geschwindigkeit des Autos, seinen Standort und in der Nähe befindliche Hindernisse umfassen, die von Computer Vision (CV) -Sensoren erkannt werden.
  • Aktion: Die Gesamtheit aller möglichen Züge oder Entscheidungen, die dem Agenten zur Verfügung stehen. Dies wird oft als Aktionsraum bezeichnet, der diskret (z. B. nach links gehen, nach rechts gehen) oder kontinuierlich (z. B. den Lenkwinkel anpassen) sein kann.
  • Übergangswahrscheinlichkeit: Diese definiert die Wahrscheinlichkeit, nach einer bestimmten Aktion von einem Zustand in einen anderen überzugehen. Sie berücksichtigt die Unsicherheit und Dynamik der realen Welt und unterscheidet MDPs von deterministischen Systemen.
  • Belohnung: Ein numerisches Signal, das nach jeder Aktion empfangen wird. Die Belohnungsfunktion ist entscheidend, da sie das Verhalten des Agenten steuert – positive Belohnungen fördern wünschenswerte Aktionen, während negative Belohnungen (Strafen) Fehler verhindern.
  • Diskontierungsfaktor: Ein Wert, der die Bedeutung zukünftiger Belohnungen im Vergleich zu unmittelbaren Belohnungen bestimmt. Er hilft dem Agenten, langfristige Planung gegenüber kurzfristiger Befriedigung zu priorisieren, ein Konzept, das für die strategische Optimierung von zentraler Bedeutung ist.

Anwendungsfälle in der Praxis

MDPs fungieren als Entscheidungsmotor hinter vielen fortschrittlichen Technologien und ermöglichen es Systemen, sich in komplexen, dynamischen Umgebungen zurechtzufinden.

  • Robotiksteuerung: In der KI in der Robotik ermöglichen MDPs Maschinen das Erlernen komplexer motorischer Fähigkeiten. Beispielsweise verwendet ein Roboterarm MDPs, um den optimalen Weg zum Aufnehmen eines Objekts zu bestimmen und dabei Kollisionen zu vermeiden. Der Zustand ist die Gelenkwinkel und Objektposition, abgeleitet aus der 3D-Objekterkennung, und die Belohnung basiert auf der erfolgreichen Greifgeschwindigkeit.
  • Bestandsmanagement: Einzelhändler nutzen MDPs zur Bestandsoptimierung. Dabei repräsentiert der Zustand die aktuellen Lagerbestände, Aktionen sind Nachbestellentscheidungen und Belohnungen werden auf der Grundlage der Gewinnmargen abzüglich der Lager- und Fehlbestandskosten berechnet.
  • Gesundheitsversorgung: In der personalisierten Medizin helfen MDPs bei der Erstellung dynamischer Behandlungspläne. Durch die Modellierung der Gesundheitsdaten von Patienten als Zustände und von Medikamenten als Maßnahmen können Ärzte vorausschauende Modelle nutzen, um die langfristigen Gesundheitsergebnisse der Patienten zu maximieren.

Beziehung zum verstärkenden Lernen

Obwohl sie eng miteinander verbunden sind, ist es wichtig, zwischen einem MDP und Reinforcement Learning zu unterscheiden. Ein MDP ist die formale Problemstellung– das mathematische Modell der Umgebung. Reinforcement Learning ist die Methode, die zur Lösung dieses Problems verwendet wird, wenn die interne Dynamik (Übergangswahrscheinlichkeiten) nicht vollständig bekannt ist. RL-Algorithmen, wie z. B. Q-Learning, interagieren mit dem MDP, um durch Versuch und Irrtum die beste Vorgehensweise zu erlernen.

Visuelle Beobachtung in MDPs

In modernen KI-Anwendungen wird der „Zustand“ eines MDP häufig aus visuellen Daten abgeleitet. Hochgeschwindigkeits-Wahrnehmungsmodelle fungieren als die Augen des Systems und wandeln rohe Kameraaufnahmen in strukturierte Daten um, die das MDP verarbeiten kann. So kann beispielsweise Ultralytics in Echtzeit Objektkoordinaten bereitstellen, die als Zustandseingaben für einen Entscheidungsagenten dienen.

Das folgende Beispiel zeigt, wie man mit Python eine Zustandsdarstellung (Begrenzungsrahmen) aus einem Bild extrahiert, die dann in eine MDP-Richtlinie eingespeist werden könnte.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Durch die Integration robuster Bildverarbeitungsmodelle in MDP-Frameworks können Entwickler Systeme aufbauen, die nicht nur die Welt wahrnehmen , sondern auch intelligente, adaptive Entscheidungen innerhalb dieser Welt treffen. Diese Synergie ist für den Fortschritt autonomer Systeme und intelligenter Fertigung

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten