Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Quá trình quyết định Markov (Markov Decision Process - MDP)

Khám phá những nguyên lý cơ bản của Quy trình Quyết định Markov (MDP). Tìm hiểu cách MDP thúc đẩy học tăng cường và cách thức hoạt động của chúng. Ultralytics YOLO26 cung cấp dữ liệu trạng thái theo thời gian thực.

Quá trình quyết định Markov (MDP) là một khung toán học được sử dụng để mô hình hóa việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần nằm dưới sự kiểm soát của người ra quyết định. Nó là bản thiết kế cơ bản cho học tăng cường (RL) , cung cấp một cách thức có cấu trúc để tác nhân AI tương tác với môi trường nhằm đạt được một mục tiêu cụ thể. Không giống như học có giám sát tiêu chuẩn, dựa trên các tập dữ liệu được gắn nhãn tĩnh, MDP tập trung vào việc ra quyết định tuần tự, trong đó các hành động hiện tại ảnh hưởng đến các khả năng trong tương lai.

Các thành phần cốt lõi của MDP

Để hiểu cách thức hoạt động của MDP, ta có thể hình dung nó như một chu trình tương tác giữa tác nhân và môi trường của nó. Chu trình này được xác định bởi năm thành phần chính:

  • Trạng thái: Tình trạng hoặc cấu hình hiện tại của môi trường. Trong xe tự lái , trạng thái có thể bao gồm tốc độ, vị trí của xe và các chướng ngại vật gần đó được phát hiện bởi các cảm biến thị giác máy tính (CV) .
  • Hành động: Tập hợp tất cả các bước di chuyển hoặc lựa chọn khả thi mà tác nhân có thể thực hiện. Điều này thường được gọi là không gian hành động , có thể là rời rạc (ví dụ: di chuyển sang trái, di chuyển sang phải) hoặc liên tục (ví dụ: điều chỉnh góc lái).
  • Xác suất chuyển đổi: Thuộc tính này xác định khả năng chuyển từ trạng thái này sang trạng thái khác sau khi thực hiện một hành động cụ thể. Nó tính đến sự không chắc chắn và tính động của thế giới thực, phân biệt các hệ thống MDP với các hệ thống xác định.
  • Phần thưởng: Một tín hiệu số nhận được sau mỗi hành động. Hàm phần thưởng rất quan trọng vì nó hướng dẫn hành vi của tác nhân – phần thưởng tích cực khuyến khích các hành động mong muốn, trong khi phần thưởng tiêu cực (hình phạt) ngăn chặn sai lầm.
  • Hệ số chiết khấu: Một giá trị xác định tầm quan trọng của phần thưởng trong tương lai so với phần thưởng trước mắt. Nó giúp người ra quyết định ưu tiên lập kế hoạch dài hạn hơn là thỏa mãn ngắn hạn, một khái niệm cốt lõi trong tối ưu hóa chiến lược .

Các Ứng dụng Thực tế

Các MDP đóng vai trò là động cơ ra quyết định đằng sau nhiều công nghệ tiên tiến, cho phép các hệ thống điều hướng trong môi trường phức tạp và năng động.

  • Điều khiển robot: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong robot , MDP (Multi-Dynamic Data Platforms) cho phép máy móc học được các kỹ năng vận động phức tạp. Ví dụ, một cánh tay robot sử dụng MDP để xác định đường đi tối ưu để nhặt một vật thể trong khi tránh va chạm. Trạng thái là các góc khớp và vị trí của vật thể, được suy ra từ quá trình phát hiện vật thể 3D , và phần thưởng dựa trên tốc độ nắm bắt thành công.
  • Quản lý tồn kho: Các nhà bán lẻ sử dụng MDP để tối ưu hóa tồn kho . Ở đây, trạng thái thể hiện mức tồn kho hiện tại, hành động là các quyết định đặt hàng lại, và phần thưởng được tính toán dựa trên tỷ suất lợi nhuận trừ đi chi phí lưu kho và chi phí thiếu hàng.
  • Điều trị chăm sóc sức khỏe: Trong y học cá nhân hóa, MDP giúp thiết kế các kế hoạch điều trị năng động. Bằng cách mô hình hóa các chỉ số sức khỏe của bệnh nhân như các trạng thái và thuốc như các hành động, bác sĩ có thể sử dụng mô hình dự đoán để tối đa hóa kết quả sức khỏe lâu dài của bệnh nhân.

Mối liên hệ với Học tăng cường

Mặc dù có mối liên hệ mật thiết, điều quan trọng là phải phân biệt giữa MDP và Học tăng cường (Reinforcement Learning). MDP là phát biểu bài toán chính thức — mô hình toán học của môi trường. Học tăng cườngphương pháp được sử dụng để giải quyết bài toán đó khi các động lực nội tại (xác suất chuyển đổi) chưa được biết đầy đủ. Các thuật toán RL, chẳng hạn như Q-learning , tương tác với MDP để học chính sách tốt nhất thông qua thử và sai.

Quan sát trực quan trong MDPs

Trong các ứng dụng AI hiện đại, "trạng thái" của một hệ thống xử lý dữ liệu đa chiều (MDP) thường được suy ra từ dữ liệu hình ảnh. Các mô hình nhận thức tốc độ cao hoạt động như đôi mắt của hệ thống, chuyển đổi dữ liệu thô từ camera thành dữ liệu có cấu trúc mà MDP có thể xử lý. Ví dụ, Ultralytics YOLO26 có thể cung cấp tọa độ đối tượng theo thời gian thực, đóng vai trò là dữ liệu đầu vào cho tác nhân ra quyết định.

Ví dụ sau đây minh họa cách trích xuất biểu diễn trạng thái (các hộp giới hạn) từ một hình ảnh bằng cách sử dụng Python Sau đó, thông tin này có thể được đưa vào chính sách MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Bằng cách tích hợp các mô hình thị giác mạnh mẽ với khung MDP, các nhà phát triển có thể xây dựng các hệ thống không chỉ nhận thức thế giới mà còn đưa ra các quyết định thông minh, thích ứng trong đó. Sự kết hợp này rất cần thiết cho sự phát triển của các hệ thống tự độngsản xuất thông minh .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay