Khám phá những nguyên lý cơ bản của Quy trình Quyết định Markov (MDP). Tìm hiểu cách MDP thúc đẩy học tăng cường và cách thức hoạt động của chúng. Ultralytics YOLO26 cung cấp dữ liệu trạng thái theo thời gian thực.
Quá trình quyết định Markov (MDP) là một khung toán học được sử dụng để mô hình hóa việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần nằm dưới sự kiểm soát của người ra quyết định. Nó là bản thiết kế cơ bản cho học tăng cường (RL) , cung cấp một cách thức có cấu trúc để tác nhân AI tương tác với môi trường nhằm đạt được một mục tiêu cụ thể. Không giống như học có giám sát tiêu chuẩn, dựa trên các tập dữ liệu được gắn nhãn tĩnh, MDP tập trung vào việc ra quyết định tuần tự, trong đó các hành động hiện tại ảnh hưởng đến các khả năng trong tương lai.
Để hiểu cách thức hoạt động của MDP, ta có thể hình dung nó như một chu trình tương tác giữa tác nhân và môi trường của nó. Chu trình này được xác định bởi năm thành phần chính:
Các MDP đóng vai trò là động cơ ra quyết định đằng sau nhiều công nghệ tiên tiến, cho phép các hệ thống điều hướng trong môi trường phức tạp và năng động.
Mặc dù có mối liên hệ mật thiết, điều quan trọng là phải phân biệt giữa MDP và Học tăng cường (Reinforcement Learning). MDP là phát biểu bài toán chính thức — mô hình toán học của môi trường. Học tăng cường là phương pháp được sử dụng để giải quyết bài toán đó khi các động lực nội tại (xác suất chuyển đổi) chưa được biết đầy đủ. Các thuật toán RL, chẳng hạn như Q-learning , tương tác với MDP để học chính sách tốt nhất thông qua thử và sai.
Trong các ứng dụng AI hiện đại, "trạng thái" của một hệ thống xử lý dữ liệu đa chiều (MDP) thường được suy ra từ dữ liệu hình ảnh. Các mô hình nhận thức tốc độ cao hoạt động như đôi mắt của hệ thống, chuyển đổi dữ liệu thô từ camera thành dữ liệu có cấu trúc mà MDP có thể xử lý. Ví dụ, Ultralytics YOLO26 có thể cung cấp tọa độ đối tượng theo thời gian thực, đóng vai trò là dữ liệu đầu vào cho tác nhân ra quyết định.
Ví dụ sau đây minh họa cách trích xuất biểu diễn trạng thái (các hộp giới hạn) từ một hình ảnh bằng cách sử dụng Python Sau đó, thông tin này có thể được đưa vào chính sách MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
Bằng cách tích hợp các mô hình thị giác mạnh mẽ với khung MDP, các nhà phát triển có thể xây dựng các hệ thống không chỉ nhận thức thế giới mà còn đưa ra các quyết định thông minh, thích ứng trong đó. Sự kết hợp này rất cần thiết cho sự phát triển của các hệ thống tự động và sản xuất thông minh .