Học tăng cường (Reinforcement Learning)
Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử và sai để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!
Học Tăng cường (RL) là một tập hợp con động của học máy (ML), tập trung vào việc dạy cho tác nhân AI tự động cách đưa ra quyết định tối ưu thông qua thử nghiệm và sai sót. Không giống như các mô hình học tập khác dựa trên tập dữ liệu tĩnh, RL liên quan đến việc một tác nhân tương tác với một môi trường động để đạt được một mục tiêu cụ thể. Tác nhân nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt dựa trên hành động của mình, dần dần tinh chỉnh chiến lược để tối đa hóa phần thưởng tích lũy theo thời gian. Quá trình này phản ánh khái niệm điều kiện hóa tác động trong tâm lý học hành vi , trong đó hành vi được củng cố bằng hậu quả.
Các khái niệm cốt lõi và cơ chế
Khung học tăng cường thường được mô tả về mặt toán học là Quy trình quyết định Markov (MDP) . Để hiểu cách thức hoạt động của chu trình này, cần phân tích các thành phần chính liên quan đến vòng lặp học tập:
-
Tác nhân AI : Người học hoặc người ra quyết định nhận biết môi trường và thực hiện hành động.
-
Môi trường: Thế giới vật lý hoặc ảo mà tác nhân hoạt động. Trong bối cảnh AI của trò chơi điện tử , đây là thế giới trò chơi; trong robot học, đó là không gian vật lý.
-
Trạng thái: Ảnh chụp nhanh về tình hình hiện tại được cung cấp cho tác nhân. Điều này thường liên quan đến dữ liệu cảm biến, chẳng hạn như dữ liệu từ hệ thống thị giác máy tính (CV) .
-
Hành động: Động thái hoặc quyết định cụ thể do tác nhân đưa ra. Tập hợp tất cả các động thái có thể xảy ra được gọi là không gian hành động .
-
Phần thưởng: Một tín hiệu số nhận được từ môi trường sau khi thực hiện một hành động. Phần thưởng tích cực khuyến khích hành vi, trong khi phần thưởng tiêu cực (hình phạt) ngăn cản hành vi.
-
Chính sách: Chiến lược hoặc bộ quy tắc mà tác nhân sử dụng để xác định hành động tiếp theo dựa trên trạng thái hiện tại.
Ứng dụng thực tế của học tăng cường
RL đã vượt ra ngoài phạm vi nghiên cứu lý thuyết và hiện đang cung cấp năng lượng cho các hệ thống phức tạp, thực tế trong nhiều ngành công nghiệp khác nhau.
-
Trí tuệ nhân tạo (AI) trong ngành Robot : Trong sản xuất và hậu cần, robot sử dụng Thực tế tăng cường (RL) để học các thao tác phức tạp, chẳng hạn như cầm nắm các vật thể có hình dạng khác nhau. Thay vì lập trình cứng mọi chuyển động, robot học cách điều chỉnh độ bám dựa trên phản hồi vật lý, cải thiện đáng kể hiệu quả trong môi trường sản xuất thông minh .
-
Xe tự hành : Xe tự lái sử dụng RL để đưa ra các quyết định lái xe cấp cao. Trong khi các mô hình phát hiện vật thể xác định người đi bộ và biển báo, các thuật toán RL giúp xác định các thao tác an toàn và hiệu quả nhất, chẳng hạn như khi nào nên nhập làn hoặc cách di chuyển qua ngã tư đông đúc.
-
Kiểm soát giao thông: Các nhà quy hoạch đô thị sử dụng RL để tối ưu hóa thời gian tín hiệu giao thông. Bằng cách coi lưu lượng giao thông như một hàm thưởng, hệ thống có thể thích ứng linh hoạt để giảm tắc nghẽn, một thành phần quan trọng của AI trong quản lý giao thông .
Học tăng cường so với các thuật ngữ liên quan
Điều quan trọng là phải phân biệt RL với các phương pháp học máy khác vì phương pháp đào tạo của chúng khác biệt đáng kể.
-
Học có giám sát : Phương pháp này dựa trên một tập dữ liệu huấn luyện chứa các đầu vào được ghép nối với các đầu ra chính xác (nhãn). Mô hình học bằng cách giảm thiểu sai số giữa dự đoán của nó và nhãn đã biết. Ngược lại, học có giám sát (RL) không có sẵn các câu trả lời "chính xác"; nó phải khám phá chúng thông qua tương tác.
-
Học không giám sát : Điều này liên quan đến việc tìm kiếm các mẫu hoặc cấu trúc ẩn trong dữ liệu chưa được gắn nhãn, chẳng hạn như nhóm khách hàng thông qua phân cụm k-means . Học không giám sát khác biệt ở chỗ mục tiêu của nó là tối đa hóa tín hiệu phần thưởng, chứ không chỉ phân tích phân phối dữ liệu.
-
Học Tăng cường Sâu (DRL) : Trong khi RL định nghĩa mô hình học tập, DRL kết hợp nó với học sâu . Trong DRL, mạng nơ-ron được sử dụng để xấp xỉ hàm chính sách hoặc giá trị, cho phép tác nhân xử lý các đầu vào đa chiều như pixel ảnh thô.
Tích hợp thị giác máy tính với thực tế tăng cường
Trong nhiều ứng dụng, "trạng thái" mà tác nhân quan sát được là trực quan. Các mô hình thị giác hiệu suất cao như YOLO11 thường được sử dụng làm lớp nhận thức cho các tác nhân RL. Mô hình thị giác xử lý cảnh để detect các đối tượng và thông tin có cấu trúc này được chuyển đến tác nhân RL để quyết định hành động tiếp theo.
Ví dụ sau đây minh họa cách sử dụng YOLO mô hình để tạo ra trạng thái (các đối tượng được phát hiện) có thể được đưa vào vòng lặp ra quyết định RL.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
Để khám phá cách các khái niệm này mở rộng quy mô, các nhà nghiên cứu thường sử dụng các môi trường như OpenAI Gym (nay là Gymnasium) để chuẩn hóa việc kiểm thử các thuật toán RL. Khi sức mạnh tính toán tăng lên, các kỹ thuật như Học Tăng Cường từ Phản Hồi của Con Người (RLHF) đang tiếp tục tinh chỉnh cách các tác nhân phù hợp với các giá trị của con người.