Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử và sai để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!
Học tăng cường (Reinforcement Learning - RL) là một lĩnh vực của học máy (ML) nơi một tác nhân thông minh học cách đưa ra các quyết định tối ưu thông qua thử và sai. Không giống như các mô hình học tập khác, tác nhân không được cho biết phải thực hiện hành động nào. Thay vào đó, nó tương tác với một môi trường và nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, để tối đa hóa phần thưởng tích lũy của nó theo thời gian. Cách tiếp cận này được lấy cảm hứng từ tâm lý học hành vi và đặc biệt mạnh mẽ để giải quyết các vấn đề ra quyết định tuần tự, như được trình bày trong văn bản nền tảng của Sutton và Barto.
Quy trình RL được mô hình hóa như một vòng phản hồi liên tục bao gồm một số thành phần chính:
Agent quan sát trạng thái hiện tại của môi trường, thực hiện một hành động và nhận được phần thưởng cùng với trạng thái tiếp theo. Chu kỳ này lặp lại và thông qua kinh nghiệm này, agent dần dần tinh chỉnh chính sách của mình để ưu tiên các hành động dẫn đến phần thưởng dài hạn cao hơn. Khuôn khổ chính thức cho vấn đề này thường được mô tả bằng một Quá trình quyết định Markov (MDP). Các thuật toán RL phổ biến bao gồm Q-learning và Policy Gradients.
Học tăng cường (RL) khác biệt so với các loại hình học máy chính khác:
Học tăng cường (RL) đã đạt được thành công đáng kể trong nhiều lĩnh vực phức tạp:
Học tăng cường là một thành phần quan trọng của bức tranh toàn cảnh Trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là để tạo ra các hệ thống tự động. Trong khi các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân vùng thể hiện (instance segmentation) bằng cách sử dụng học có giám sát, thì khả năng nhận thức của các mô hình này là đầu vào thiết yếu cho các tác nhân RL.
Ví dụ: một robot có thể sử dụng mô hình YOLO để nhận thức, được triển khai thông qua Ultralytics HUB, để hiểu môi trường xung quanh ("trạng thái"). Sau đó, một chính sách RL sử dụng thông tin này để quyết định bước đi tiếp theo. Sự kết hợp giữa Thị giác máy tính (CV) để nhận thức và RL để ra quyết định là nền tảng để xây dựng các hệ thống thông minh. Các hệ thống này thường được phát triển bằng các framework như PyTorch và TensorFlow và thường được thử nghiệm trong các môi trường mô phỏng tiêu chuẩn như Gymnasium (trước đây là OpenAI Gym). Để cải thiện sự phù hợp của mô hình với sở thích của con người, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) cũng ngày càng trở nên quan trọng trong lĩnh vực này. Sự tiến bộ trong RL liên tục được thúc đẩy bởi các tổ chức như DeepMind và các hội nghị học thuật như NeurIPS.