Entdecken Sie die Grundlagen von Markov-Entscheidungsprozessen (MDP). Erfahren Sie, wie MDPs das verstärkende Lernen vorantreiben und wie Ultralytics Echtzeit-Zustandsdaten bereitstellt.
Ein Markov-Entscheidungsprozess (MDP) ist ein mathematisches Modell, das zur Modellierung von Entscheidungsprozessen in Situationen verwendet wird, in denen die Ergebnisse teilweise zufällig und teilweise unter der Kontrolle eines Entscheidungsträgers liegen. Es ist die grundlegende Blaupause für das verstärkende Lernen (RL) und bietet eine strukturierte Möglichkeit für einen KI-Agenten, mit einer Umgebung zu interagieren, um ein bestimmtes Ziel zu erreichen. Im Gegensatz zum standardmäßigen überwachten Lernen, das auf statischen beschrifteten Datensätzen basiert, konzentriert sich ein MDP auf sequenzielle Entscheidungsfindung, bei der aktuelle Handlungen zukünftige Möglichkeiten beeinflussen.
Um zu verstehen, wie ein MDP funktioniert, ist es hilfreich, es sich als einen Interaktionszyklus zwischen einem Agenten und seiner Umgebung vorzustellen. Dieser Zyklus wird durch fünf Schlüsselkomponenten definiert:
MDPs fungieren als Entscheidungsmotor hinter vielen fortschrittlichen Technologien und ermöglichen es Systemen, sich in komplexen, dynamischen Umgebungen zurechtzufinden.
Obwohl sie eng miteinander verbunden sind, ist es wichtig, zwischen einem MDP und Reinforcement Learning zu unterscheiden. Ein MDP ist die formale Problemstellung– das mathematische Modell der Umgebung. Reinforcement Learning ist die Methode, die zur Lösung dieses Problems verwendet wird, wenn die interne Dynamik (Übergangswahrscheinlichkeiten) nicht vollständig bekannt ist. RL-Algorithmen, wie z. B. Q-Learning, interagieren mit dem MDP, um durch Versuch und Irrtum die beste Vorgehensweise zu erlernen.
In modernen KI-Anwendungen wird der „Zustand“ eines MDP häufig aus visuellen Daten abgeleitet. Hochgeschwindigkeits-Wahrnehmungsmodelle fungieren als die Augen des Systems und wandeln rohe Kameraaufnahmen in strukturierte Daten um, die das MDP verarbeiten kann. So kann beispielsweise Ultralytics in Echtzeit Objektkoordinaten bereitstellen, die als Zustandseingaben für einen Entscheidungsagenten dienen.
Das folgende Beispiel zeigt, wie man mit Python eine Zustandsdarstellung (Begrenzungsrahmen) aus einem Bild extrahiert, die dann in eine MDP-Richtlinie eingespeist werden könnte.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
Durch die Integration robuster Bildverarbeitungsmodelle in MDP-Frameworks können Entwickler Systeme aufbauen, die nicht nur die Welt wahrnehmen , sondern auch intelligente, adaptive Entscheidungen innerhalb dieser Welt treffen. Diese Synergie ist für den Fortschritt autonomer Systeme und intelligenter Fertigung