Markov Decision Process (MDP)
Khám phá các nguyên lý cơ bản của Markov Decision Processes (MDP). Tìm hiểu cách các MDP thúc đẩy học tăng cường và cách Ultralytics YOLO26 cung cấp dữ liệu trạng thái thời gian thực.
Quy trình Quyết định Markov (MDP) là một khung toán học được sử dụng để lập mô hình ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần nằm dưới sự kiểm soát của người ra quyết định. Đây là nền tảng cơ bản cho học tăng cường (RL), cung cấp một cách thức có cấu trúc để một tác nhân AI tương tác với môi trường nhằm đạt được một mục tiêu cụ thể. Không giống như học có giám sát tiêu chuẩn, vốn dựa vào các tập dữ liệu tĩnh có gán nhãn, MDP tập trung vào việc ra quyết định tuần tự nơi các hành động hiện tại ảnh hưởng đến các khả năng trong tương lai.
Link to this sectionCác thành phần cốt lõi của MDP#
Để hiểu cách thức hoạt động của MDP, việc hình dung nó như một chu kỳ tương tác giữa tác nhân và môi trường của nó sẽ rất hữu ích. Chu kỳ này được xác định bởi năm thành phần chính:
- Trạng thái (State): Tình huống hoặc cấu hình hiện tại của môi trường. Trong xe tự hành, trạng thái có thể bao gồm tốc độ của xe, vị trí và các vật cản gần đó được phát hiện bởi các cảm biến thị giác máy tính (CV).
- Hành động (Action): Tập hợp tất cả các bước di chuyển hoặc lựa chọn khả thi có sẵn cho tác nhân. Điều này thường được gọi là không gian hành động, có thể là rời rạc (ví dụ: di chuyển sang trái, sang phải) hoặc liên tục (ví dụ: điều chỉnh góc lái).
- Xác suất chuyển đổi (Transition Probability): Điều này xác định khả năng chuyển từ trạng thái này sang trạng thái khác sau khi thực hiện một hành động cụ thể. Nó tính đến sự không chắc chắn và động lực học của thế giới thực, giúp phân biệt các MDP với các hệ thống xác định.
- Phần thưởng (Reward): Một tín hiệu số nhận được sau mỗi hành động. Hàm phần thưởng là yếu tố then chốt vì nó hướng dẫn hành vi của tác nhân—các phần thưởng tích cực khuyến khích các hành động mong muốn, trong khi các phần thưởng tiêu cực (hình phạt) ngăn cản các sai lầm.
- Hệ số chiết khấu (Discount Factor): Một giá trị xác định tầm quan trọng của các phần thưởng trong tương lai so với những phần thưởng tức thì. Nó giúp tác nhân ưu tiên việc lập kế hoạch dài hạn hơn là sự thỏa mãn ngắn hạn, một khái niệm trọng tâm trong tối ưu hóa chiến lược.
Link to this sectionCác ứng dụng trong thực tế#
MDP đóng vai trò là động cơ ra quyết định đằng sau nhiều công nghệ tiên tiến, cho phép các hệ thống điều hướng trong các môi trường phức tạp và năng động.
- Điều khiển Robot: Trong AI trong lĩnh vực robot, MDP cho phép máy móc học các kỹ năng vận động phức tạp. Ví dụ, một cánh tay robot sử dụng MDP để xác định lộ trình tối ưu nhằm nhặt một vật thể trong khi tránh va chạm. Trạng thái là các góc khớp và vị trí vật thể, bắt nguồn từ phát hiện vật thể 3D, và phần thưởng dựa trên tốc độ gắp thành công.
- Quản lý Hàng tồn kho: Các nhà bán lẻ sử dụng MDP cho tối ưu hóa hàng tồn kho. Ở đây, trạng thái đại diện cho mức tồn kho hiện tại, các hành động là quyết định đặt hàng lại, và phần thưởng được tính dựa trên biên lợi nhuận trừ đi chi phí lưu kho và thiếu hụt hàng hóa.
- Điều trị Y tế: Trong y học cá nhân hóa, MDP giúp thiết kế các kế hoạch điều trị linh hoạt. Bằng cách lập mô hình các chỉ số sức khỏe bệnh nhân dưới dạng trạng thái và thuốc điều trị dưới dạng hành động, các bác sĩ có thể sử dụng lập mô hình dự đoán để tối đa hóa kết quả sức khỏe lâu dài của bệnh nhân.
Link to this sectionMối quan hệ với Học tăng cường#
Mặc dù có liên quan chặt chẽ, việc phân biệt giữa MDP và Học tăng cường là rất quan trọng. MDP là phát biểu bài toán chính thức—mô hình toán học của môi trường. Học tăng cường là phương pháp được sử dụng để giải quyết bài toán đó khi các động lực học nội tại (xác suất chuyển đổi) không được biết đầy đủ. Các thuật toán RL, chẳng hạn như Q-learning, tương tác với MDP để học chính sách tốt nhất thông qua thử và sai.
Link to this sectionQuan sát trực quan trong MDP#
Trong các ứng dụng AI hiện đại, "trạng thái" của một MDP thường bắt nguồn từ dữ liệu trực quan. Các mô hình nhận thức tốc độ cao đóng vai trò như đôi mắt của hệ thống, chuyển đổi luồng dữ liệu camera thô thành dữ liệu có cấu trúc mà MDP có thể xử lý. Ví dụ, Ultralytics YOLO26 có thể cung cấp tọa độ vật thể theo thời gian thực, đóng vai trò là đầu vào trạng thái cho tác nhân ra quyết định.
Ví dụ sau đây minh họa cách trích xuất biểu diễn trạng thái (hộp bao) từ hình ảnh bằng Python, dữ liệu này sau đó có thể được đưa vào chính sách của MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")Bằng cách tích hợp các mô hình thị giác mạnh mẽ với các khung MDP, các nhà phát triển có thể xây dựng các hệ thống không chỉ cảm nhận thế giới mà còn đưa ra các quyết định thông minh và thích ứng trong đó. Sự cộng hưởng này là yếu tố thiết yếu cho sự tiến bộ của hệ thống tự hành và sản xuất thông minh.






