Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!
Học Tăng cường (RL) là một lĩnh vực của học máy (ML), trong đó một tác nhân thông minh học cách đưa ra quyết định tối ưu thông qua thử nghiệm và sai sót. Không giống như các mô hình học tập khác, tác nhân không được chỉ định phải thực hiện hành động nào. Thay vào đó, nó tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, giúp tối đa hóa phần thưởng tích lũy theo thời gian. Phương pháp này lấy cảm hứng từ tâm lý học hành vi và đặc biệt hiệu quả trong việc giải quyết các vấn đề ra quyết định tuần tự, như được nêu trong văn bản nền tảng của Sutton và Barto .
Quá trình RL được mô hình hóa như một vòng phản hồi liên tục bao gồm một số thành phần chính:
Tác nhân quan sát trạng thái hiện tại của môi trường, thực hiện một hành động và nhận được phần thưởng cùng với trạng thái tiếp theo. Chu kỳ này lặp lại, và thông qua trải nghiệm này, tác nhân dần dần tinh chỉnh chính sách của mình để ưu tiên các hành động dẫn đến phần thưởng dài hạn cao hơn. Khuôn khổ chính thức cho bài toán này thường được mô tả bằng Quy trình Quyết định Markov (MDP) . Các thuật toán RL phổ biến bao gồm Q-learning và Policy Gradients.
RL khác biệt so với các loại hình học máy chính khác:
RL đã đạt được thành công đáng kể trong nhiều lĩnh vực phức tạp:
Học Tăng cường (Reinforcement Learning) là một thành phần quan trọng của bối cảnh Trí tuệ Nhân tạo (AI) rộng lớn hơn, đặc biệt là trong việc tạo ra các hệ thống tự động. Mặc dù các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân đoạn thực thể bằng học có giám sát, khả năng nhận thức của các mô hình này lại là yếu tố đầu vào thiết yếu cho các tác nhân RL.
Ví dụ, một robot có thể sử dụng mô hình YOLO để nhận thức, được triển khai thông qua Ultralytics HUB , để hiểu môi trường xung quanh ("trạng thái"). Sau đó, một chính sách RL sẽ sử dụng thông tin này để quyết định bước đi tiếp theo. Sự phối hợp giữa Thị giác Máy tính (CV) để nhận thức và RL để ra quyết định là nền tảng cho việc xây dựng các hệ thống thông minh. Các hệ thống này thường được phát triển bằng các nền tảng như PyTorch và TensorFlow , và thường xuyên được kiểm tra trong các môi trường mô phỏng tiêu chuẩn như Gymnasium (trước đây là OpenAI Gym) . Để cải thiện sự phù hợp của mô hình với sở thích của con người, các kỹ thuật như Học Tăng cường từ Phản hồi của Con người (RLHF) cũng đang ngày càng trở nên quan trọng trong lĩnh vực này. Tiến bộ trong RL liên tục được thúc đẩy bởi các tổ chức như DeepMind và các hội nghị học thuật như NeurIPS .