Reinforcement Learning
Khám phá các khái niệm cốt lõi của Học tăng cường (RL). Tìm hiểu cách các tác nhân sử dụng phản hồi để làm chủ các nhiệm vụ và xem cách Ultralytics YOLO26 hỗ trợ các hệ thống thị giác RL.
Reinforcement Learning (RL) là một nhánh định hướng mục tiêu của machine learning (ML), nơi một hệ thống tự hành, được gọi là tác nhân (agent), học cách đưa ra quyết định bằng cách thực hiện các hành động và nhận phản hồi từ môi trường của nó. Khác với supervised learning, vốn dựa trên các tập dữ liệu tĩnh được gán nhãn với câu trả lời chính xác, các thuật toán RL học thông qua quá trình thử và sai đầy năng động. Tác nhân tương tác với một mô phỏng hoặc thế giới thực, quan sát hậu quả từ hành động của mình để xác định chiến lược nào mang lại phần thưởng cao nhất trong dài hạn. Cách tiếp cận này mô phỏng sát sao khái niệm tâm lý học về operant conditioning, nơi hành vi được hình thành bởi củng cố tích cực (phần thưởng) và củng cố tiêu cực (hình phạt) theo thời gian.
Link to this sectionCác khái niệm cốt lõi của vòng lặp RL#
Để hiểu cách thức hoạt động của RL, sẽ rất hữu ích khi hình dung nó như một chu kỳ tương tác liên tục. Khung này thường được chính thức hóa về mặt toán học dưới dạng Markov Decision Process (MDP), cấu trúc hóa việc ra quyết định trong các tình huống mà kết quả vừa mang tính ngẫu nhiên vừa chịu sự kiểm soát của người ra quyết định.
Các thành phần chính của vòng lặp học tập này bao gồm:
- AI Agent: Thực thể chịu trách nhiệm học tập và đưa ra quyết định. Nó cảm nhận môi trường và thực hiện các hành động để tối đa hóa sự thành công tích lũy của mình.
- Môi trường (Environment): Thế giới bên ngoài nơi tác nhân hoạt động. Đây có thể là một trò chơi điện tử phức tạp, một mô phỏng thị trường tài chính, hoặc một nhà kho vật lý trong AI in logistics.
- Trạng thái (State): Ảnh chụp nhanh hoặc đại diện của tình huống hiện tại. Trong các ứng dụng thị giác, điều này thường bao gồm việc xử lý luồng dữ liệu camera sử dụng computer vision (CV) để phát hiện vật thể và chướng ngại vật.
- Hành động (Action): Động thái hoặc lựa chọn cụ thể mà tác nhân thực hiện. Tập hợp hoàn chỉnh tất cả các nước đi có thể được gọi là action space.
- Phần thưởng (Reward): Tín hiệu số được gửi từ môi trường đến tác nhân sau một hành động. Một reward function được thiết kế tốt sẽ gán giá trị dương cho các hành động có lợi và hình phạt cho các hành động gây hại.
- Chính sách (Policy): Chiến lược hoặc tập quy tắc mà tác nhân sử dụng để xác định hành động tiếp theo dựa trên trạng thái hiện tại. Các thuật toán như Q-learning xác định cách thức chính sách này được cập nhật và tối ưu hóa.
Link to this sectionCác ứng dụng trong thực tế#
Reinforcement learning đã vượt ra khỏi nghiên cứu lý thuyết để đi vào các triển khai thực tế có tác động cao trên nhiều ngành công nghiệp khác nhau.
- Robot nâng cao (Advanced Robotics): Trong lĩnh vực AI in robotics, RL cho phép máy móc làm chủ các kỹ năng vận động phức tạp vốn khó lập trình cứng. Robot có thể học cách nắm bắt các vật thể không đồng nhất hoặc điều hướng trên địa hình không bằng phẳng bằng cách đào tạo trong các công cụ vật lý như NVIDIA Isaac Sim trước khi triển khai ra thế giới thực.
- Hệ thống tự hành (Autonomous Systems): Autonomous vehicles tận dụng RL để đưa ra quyết định theo thời gian thực trong các tình huống giao thông khó dự đoán. Trong khi các mô hình object detection xác định người đi bộ và biển báo, các thuật toán RL giúp xác định chính sách lái xe an toàn cho việc nhập làn và điều hướng tại giao lộ.
- Tối ưu hóa chiến lược (Strategic Optimization): RL đã thu hút sự chú ý toàn cầu khi các hệ thống như Google DeepMind's AlphaGo đánh bại các nhà vô địch thế giới của con người trong các trò chơi cờ bàn phức tạp. Ngoài việc chơi game, các tác nhân này tối ưu hóa hậu cần công nghiệp, chẳng hạn như kiểm soát hệ thống làm mát trong các trung tâm dữ liệu để giảm tiêu thụ năng lượng.
Link to this sectionTích hợp thị giác với RL#
Trong nhiều ứng dụng hiện đại, "trạng thái" mà tác nhân quan sát được là thị giác. Các mô hình hiệu suất cao như YOLO26 đóng vai trò là lớp nhận thức cho các tác nhân RL, chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc. Thông tin đã xử lý này—chẳng hạn như vị trí và lớp của vật thể—trở thành trạng thái mà chính sách RL sử dụng để chọn hành động.
Ví dụ sau đây minh họa cách sử dụng gói ultralytics để xử lý khung hình môi trường, tạo ra một biểu diễn trạng thái (ví dụ: số lượng vật thể) cho một vòng lặp RL lý thuyết.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this sectionPhân biệt các thuật ngữ liên quan#
Điều quan trọng là phải phân biệt Reinforcement Learning với các mô hình machine learning khác:
- so với Supervised Learning: Supervised learning yêu cầu một người giám sát bên ngoài có kiến thức để cung cấp dữ liệu đào tạo được gán nhãn (ví dụ: "hình ảnh này chứa một con mèo"). Ngược lại, RL học từ hậu quả của chính hành động của mình mà không cần nhãn rõ ràng, khám phá các con đường tối ưu thông qua quá trình thử nghiệm.
- so với Unsupervised Learning: Unsupervised learning tập trung vào việc tìm kiếm các cấu trúc hoặc mô hình ẩn bên trong dữ liệu không được gán nhãn (như phân nhóm khách hàng). RL khác biệt vì nó tập trung rõ ràng vào mục tiêu, ưu tiên tối đa hóa tín hiệu phần thưởng thay vì chỉ mô tả cấu trúc dữ liệu.
Khi sức mạnh tính toán tăng lên, các kỹ thuật như Reinforcement Learning from Human Feedback (RLHF) đang tiếp tục tinh chỉnh cách tác nhân học tập, căn chỉnh mục tiêu của chúng sát hơn với các giá trị phức tạp của con người và các tiêu chuẩn an toàn. Các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn hóa như Gymnasium để đánh giá và cải thiện các thuật toán này. Đối với các đội ngũ cần quản lý các tập dữ liệu yêu cầu cho các lớp nhận thức của các tác nhân này, Ultralytics Platform cung cấp các công cụ toàn diện cho việc gán nhãn và quản lý mô hình.






