Glossar

Markov-Entscheidungsprozess (Markov Decision Process, MDP)

Entdecken Sie Markov-Entscheidungsprozesse (MDPs) und ihre Rolle in KI, Reinforcement Learning, Robotik und Entscheidungsfindung im Gesundheitswesen.

Ein Markov-Entscheidungsprozess (Markov Decision Process, MDP) ist ein mathematischer Rahmen zur Modellierung von Entscheidungsfindung in Situationen, in denen Ergebnisse teils zufällig und teils unter der Kontrolle eines Entscheidungsträgers liegen. Er ist ein grundlegendes Konzept im verstärkenden Lernen (Reinforcement Learning, RL) und bietet eine formale Möglichkeit, eine Umgebung zu beschreiben. Ein Agent interagiert mit dieser Umgebung, indem er ihren Zustand beobachtet und eine Aktion wählt, mit dem Ziel, ein kumulatives Belohnungssignal im Laufe der Zeit zu maximieren. Die Kernidee basiert auf der Markov-Eigenschaft, die davon ausgeht, dass die Zukunft unabhängig von der Vergangenheit gegeben der Gegenwart ist; mit anderen Worten, der aktuelle Zustand liefert alle notwendigen Informationen, um eine optimale Entscheidung zu treffen.

Wie Markov-Entscheidungsprozesse funktionieren

Ein MDP wird durch mehrere Schlüsselkomponenten definiert, die die Interaktion zwischen einem Agenten und seiner Umgebung beschreiben:

Zustände (S): Eine Menge aller möglichen Situationen oder Konfigurationen, in denen sich der Agent befinden kann. Zum Beispiel der Standort eines Roboters in einem Raum oder der Lagerbestand eines Produkts.
Aktionen (A): Eine Menge aller möglichen Züge, die der Agent in jedem Zustand ausführen kann. Für einen Roboter könnte dies Vorwärts-, Links- oder Rechtsbewegung sein.
Übergangswahrscheinlichkeit: Die Wahrscheinlichkeit, von einem aktuellen Zustand in einen neuen Zustand überzugehen, nachdem eine bestimmte Aktion ausgeführt wurde. Dies erfasst die Unsicherheit in der Umgebung, wie z. B. das Durchrutschen der Räder eines Roboters.
Belohnungsfunktion: Ein Signal, das den unmittelbaren Wert des Übergangs in einen neuen Zustand angibt. Belohnungen können positiv oder negativ sein und den Agenten zu wünschenswerten Ergebnissen führen.
Policy (π): Die Strategie, die der Agent verwendet, um in jedem Zustand Aktionen auszuwählen. Das ultimative Ziel bei der Lösung eines MDP ist es, eine optimale Policy zu finden—eine, die den gesamten erwarteten Ertrag langfristig maximiert.

Der Prozess ist zyklisch: Der Agent beobachtet den aktuellen Zustand, wählt eine Aktion basierend auf seiner Strategie aus, erhält eine Belohnung und geht in einen neuen Zustand über. Diese Schleife wird fortgesetzt, sodass der Agent aus seinen Erfahrungen lernen kann.

Anwendungsfälle in der Praxis

MDPs werden verwendet, um eine breite Palette sequenzieller Entscheidungsprobleme zu modellieren.

Robotik und autonome Navigation: In der Robotik kann ein MDP modellieren, wie ein Roboter einen komplexen Raum navigiert. Die Zustände könnten die Koordinaten und die Ausrichtung des Roboters sein, während die Aktionen seine Bewegungen sind (z. B. vorwärts, drehen). Die Belohnungen können positiv sein, wenn ein Ziel erreicht wird, und negativ, wenn Hindernisse berührt werden oder zu viel Energie verbraucht wird. Wahrnehmungssysteme, die oft Computer Vision (CV) für die Objekterkennung verwenden, liefern die Zustandsinformationen, die für das MDP erforderlich sind. Dies ist grundlegend für Anwendungen wie autonome Fahrzeuge, die ständig Entscheidungen auf der Grundlage von sensorischen Eingaben treffen müssen.
Bestands- und Lieferkettenmanagement: Unternehmen können MDPs zur Optimierung der Bestandskontrolle einsetzen. Der Zustand ist der aktuelle Lagerbestand, Aktionen sind die Menge der nachzubestellenden Produkte, und die Belohnungsfunktion gleicht den Gewinn aus Verkäufen mit den Kosten für Lagerhaltung und Fehlbestände aus. Dies hilft bei der Entscheidungsfindung für optimale Bestellungen bei unsicherer Nachfrage, einer zentralen Herausforderung im Bereich KI für den Einzelhandel. Führende Organisationen wie die Association for Supply Chain Management untersuchen solche fortschrittlichen Optimierungsmethoden.

Beziehung zu anderen Konzepten

Es ist nützlich, MDPs von verwandten Konzepten im maschinellen Lernen (ML) zu unterscheiden:

Reinforcement Learning (RL): RL ist das Gebiet der KI, das sich mit dem Trainieren von Agenten befasst, um optimale Entscheidungen zu treffen. MDPs bieten den mathematischen Rahmen, der das Problem, das RL-Algorithmen lösen sollen, formal definiert. Wenn die Übergangs- und Belohnungsmodelle der Umgebung unbekannt sind, werden RL-Techniken verwendet, um die optimale Strategie durch Ausprobieren zu erlernen. Deep Reinforcement Learning erweitert dies durch die Verwendung von Deep-Learning-Modellen, um komplexe, hochdimensionale Zustandsräume zu verarbeiten, wie in grundlegenden Texten wie Sutton und Bartos Buch behandelt.
Verborgene Markov-Modelle (HMM): Im Gegensatz zu MDPs, bei denen der Zustand vollständig beobachtbar ist, werden Hidden Markov Models (HMMs) verwendet, wenn der Zustand nicht direkt sichtbar ist, sondern aus einer Abfolge von Beobachtungen abgeleitet werden muss. HMMs dienen der Analyse und Inferenz, nicht der Entscheidungsfindung, da sie keine Aktionen oder Belohnungen beinhalten.
Dynamische Programmierung: Wenn ein vollständiges und genaues Modell des MDP (d. h. bekannte Übergangswahrscheinlichkeiten und Belohnungen) verfügbar ist, kann es mithilfe von dynamischen Programmierungs-Methoden wie Wertiteration und Richtlinieniteration gelöst werden, um die optimale Richtlinie zu finden.

Die Entwicklung von Lösungen für MDPs umfasst oft die Verwendung von RL-Bibliotheken wie Gymnasium und ML-Frameworks wie PyTorch oder TensorFlow. Die Wahrnehmungskomponente dieser Systeme, die den aktuellen Zustand identifiziert, kann mit Modellen wie Ultralytics YOLO11 aufgebaut werden. Der gesamte Workflow, von der Verwaltung der Trainingsdaten bis zur Modellbereitstellung, kann mit Plattformen wie Ultralytics HUB optimiert und mit robusten MLOps-Praktiken verwaltet werden.

Markov-Entscheidungsprozess (Markov Decision Process, MDP)

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie Markov-Entscheidungsprozesse funktionieren

Anwendungsfälle in der Praxis

Beziehung zu anderen Konzepten

Mehr in dieser Kategorie lesen

Von Bits zu Qubits: Wie die Quantenoptimierung die KI umgestaltet

Eine Kurzanleitung für Anfänger, wie man ein KI-Modell trainiert

Aus Dubai mit Einblicken: Die wichtigsten Erkenntnisse aus dem GDG MENA-T Summit 2025

Treten Sie der Ultralytics-Community bei