Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Markov-Entscheidungsprozess (Markov Decision Process, MDP)

Entdecken Sie Markov-Entscheidungsprozesse (MDPs) und ihre Rolle in KI, Reinforcement Learning, Robotik und Entscheidungsfindung im Gesundheitswesen.

Ein Markov-Entscheidungsprozess (MDP) ist ein mathematischer Rahmen, der zur Modellierung der Entscheidungsfindung in Situationen verwendet wird, in denen die Ergebnisse teilweise zufällig sind und teilweise unter der Kontrolle eines Entscheidungsträgers stehen. Es dient als theoretische Grundlage für Reinforcement Learning (RL) und bietet eine formale Möglichkeit, eine Umgebung zu beschreiben, in der ein KI-Agent agiert. Durch die Strukturierung von Problemen in Zustände, Aktionen und Belohnungen, ermöglichen MDPs intelligenten Systemen die Berechnung der besten Strategie, die als Strategie bezeichnet wird, um bestimmte Ziele über die Zeit zu maximieren. bestimmte Ziele im Laufe der Zeit zu maximieren. Dieser Rahmen ist für die Entwicklung fortschrittlicher Technologien, von automatisierten Handelssystemen Handelssystemen bis hin zu autonomen Fahrzeugen.

Kernkomponenten eines MDP

Ein MDP charakterisiert die Interaktion zwischen einem Agenten und seiner Umgebung durch fünf verschiedene Elemente. Diese Komponenten ermöglichen es Forschern, komplexe Probleme des maschinellen Lernens (ML) in einem lösbaren Format zu definieren:

  • Staaten (S): Die Menge aller möglichen Situationen, die der Agent einnehmen kann. In einem Schachspiel stellt ein Zustand die aktuelle Konfiguration der Figuren auf dem dem Brett.
  • Aktionen (A): Die Menge aller möglichen Bewegungen oder Entscheidungen, die der Agent in einem bestimmten Zustand treffen kann.
  • Übergangswahrscheinlichkeit: Die Wahrscheinlichkeit, von einem Zustand in einen anderen zu wechseln, nachdem eine bestimmten Aktion. Diese Komponente modelliert die Ungewissheit in der Umgebung und wird oft als stochastischer Prozess.
  • Belohnungsfunktion: Ein Rückkopplungssignal, das den unmittelbaren Nutzen einer bestimmten Aktion in einem bestimmten Zustand. Der Agent nutzt dieses Signal, um seine Leistung zu bewerten.
  • Politik ($\pi$): Eine Strategie oder ein Regelwerk, das das Verhalten des Agenten festlegt. Das Ziel des Lösens eines MDP ist es, eine "optimale Strategie" zu finden, die den gesamten erwarteten Gewinn auf lange Sicht maximiert.

Die zentrale Annahme in diesem Rahmen ist die Markov-Eigenschaft, die besagt, dass die zukünftige Entwicklung des des Prozesses nur vom aktuellen Zustand abhängt und nicht von der Abfolge der Ereignisse, die ihm vorausgegangen sind. Dies vereinfacht die Berechnungsanforderungen für optimale Entscheidungen.

Anwendungsfälle in der Praxis

MDPs sind in verschiedenen Branchen weit verbreitet, um sequenzielle Entscheidungsprobleme zu lösen, bei denen Planung und Anpassungsfähigkeit entscheidend sind.

  • Robotik: Roboter arbeiten häufig in dynamischen Umgebungen, in denen Sensoren verrauschte Daten liefern. Ein MDP ermöglicht es einem Roboter, seinen Weg zu planen, indem er seinen Standort als Zustand und seine Bewegungen als Aktionen behandelt. Vision-Systeme, angetrieben durch Objekterkennungsmodelle wie YOLO11helfen dem Roboter, den Zustand der Welt zu erkennen den Zustand der Welt - wie das Vorhandensein von Hindernissen - zu erkennen, damit er sicher und effizient navigieren kann.
  • Lagerbestandsmanagement: In der Lieferkettenlogistik verwenden Unternehmen MDPs zur Optimierung der Lagerbestände. Hier ist der Zustand der aktuelle Bestand, und die Aktionen beinhalten die Entscheidung, wie viel Produkt nachbestellt werden soll. Die Belohnungsfunktion Belohnungsfunktion wägt den Gewinn aus dem Verkauf gegen die Lagerkosten und die entgangenen Einnahmen durch Lagerausfälle ab, eine Anwendung in der KI für den Einzelhandel.
  • Behandlungsplanung im Gesundheitswesen: MDPs helfen bei der Erstellung personalisierter Behandlungspläne für Patienten mit chronischen Erkrankungen. Indem sie den Gesundheitszustand des Patienten als eine Reihe von Zuständen modellieren, können Ärzte die optimale Abfolge von Behandlungen bestimmen, um die langfristigen Gesundheitsergebnisse zu maximieren. medizinischen Bildanalyse.

Wahrnehmung als State Input

In modernen KI-Anwendungen wird der "Zustand" eines MDP häufig aus hochdimensionalen Daten, wie z. B. Video Feeds. Ein Computer Vision (CV) Modell verarbeitet visuellen Input, um eine strukturierte Zustandsdarstellung zu erstellen, die der Entscheidungsalgorithmus verstehen kann.

Der folgende Python demonstriert, wie ein vortrainiertes YOLO11 verwendet wird, um Zustandsinformationen (Objekt Koordinaten) aus einem Bild extrahiert. Diese Daten können als Eingabezustand für einen MDP-basierten Agenten dienen.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

Unterscheidung von verwandten Konzepten

Es ist hilfreich, MDPs von anderen verwandten Begriffen in der Künstliche Intelligenz (KI) abzugrenzen:

  • Verstärkungslernen (RL): Die Begriffe werden zwar oft synonym verwendet, aber die Unterscheidung ist wichtig. Ein MDP ist der Rahmen oder die Problem Problemstellung, während RL die Methode ist, die zu seiner Lösung verwendet wird, wenn die Übergangswahrscheinlichkeiten und Belohnungsfunktionen anfangs nicht bekannt sind. Die Agenten lernen die optimale Strategie durch Versuch und Irrtum, wie in den grundlegenden Texten von Sutton und Barto beschrieben.
  • Hidden Markov Model (HMM): Ein HMM wird verwendet, wenn der wahre Zustand des Systems nicht vollständig beobachtbar ist und aus probabilistischen Ausgaben abgeleitet werden muss. Im Gegensatz dazu geht ein Standard-MDP davon aus, dass der Agent den aktuellen Zustand vollständig kennt.
  • Deep Reinforcement Learning (DRL): DRL kombiniert MDPs mit Deep Learning (DL). Traditionelle MDP-Löser haben mit riesigen Zustandsräumen zu kämpfen (wie die Anzahl der möglichen Pixelkombinationen in einem Videospiel). DRL verwendet neuronale Netze zur um den Wert von Zuständen zu approximieren, was Lösungen für komplexe Umgebungen ermöglicht, die in Tools wie Gymnasium.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten