Khám phá sức mạnh của công nghệ học tăng cường sâu - nơi AI học các hành vi phức tạp để giải quyết các thách thức trong trò chơi, robot, chăm sóc sức khỏe, v.v.
Học Tăng cường Sâu (DRL) là một nhánh của Học Máy (ML) , kết hợp các nguyên lý của Học Tăng cường (RL) với sức mạnh của Học Sâu (DL) . Nó cho phép tác nhân AI học các chiến lược ra quyết định tối ưu thông qua thử nghiệm và sai sót trong các môi trường phức tạp, đa chiều. Bằng cách sử dụng mạng nơ-ron sâu, các mô hình DRL có thể xử lý dữ liệu cảm biến thô, chẳng hạn như pixel từ hình ảnh hoặc dữ liệu cảm biến, mà không cần kỹ thuật tính năng thủ công. Điều này cho phép chúng giải quyết các vấn đề mà trước đây các phương pháp RL truyền thống không thể giải quyết.
Trong một thiết lập DRL điển hình, một tác nhân tương tác với môi trường qua một chuỗi các bước thời gian. Tại mỗi bước, tác nhân quan sát trạng thái của môi trường, thực hiện một hành động và nhận được phần thưởng hoặc hình phạt. Mục tiêu là học một chính sách—một chiến lược để lựa chọn hành động—nhằm tối đa hóa tổng phần thưởng tích lũy theo thời gian. Phần "sâu" của DRL đến từ việc sử dụng mạng nơ-ron sâu để ước tính chính sách đó hoặc một hàm giá trị ước tính mức độ mong muốn của các trạng thái hoặc hành động. Mạng này được huấn luyện bằng các thuật toán như giảm dần độ dốc để điều chỉnh trọng số mô hình dựa trên phần thưởng nhận được. Toàn bộ quá trình này được chính thức hóa bằng Quy trình Quyết định Markov (MDP) , cung cấp nền tảng toán học cho việc mô hình hóa quá trình ra quyết định tuần tự.
Điều quan trọng là phải phân biệt DRL với các thuật ngữ liên quan:
DRL đã thúc đẩy những đột phá trong nhiều lĩnh vực phức tạp:
Học tăng cường sâu đang đi đầu trong nghiên cứu AI , mở rộng ranh giới của khả năng tự chủ của máy móc. Trong khi các công ty như Ultralytics tập trung chủ yếu vào các mô hình thị giác tiên tiến như Ultralytics YOLO cho các nhiệm vụ như phát hiện đối tượng và phân đoạn hình ảnh , thì đầu ra của các hệ thống nhận thức này thường là đầu vào quan trọng cho các tác nhân DRL. Ví dụ: một robot có thể sử dụng mô hình Ultralytics YOLO được triển khai thông qua Ultralytics HUB để nhận thức môi trường của nó (biểu diễn trạng thái) trước khi chính sách DRL quyết định hành động tiếp theo. Hiểu về DRL cung cấp bối cảnh về cách nhận thức nâng cao phù hợp với các hệ thống tự chủ rộng hơn. Sự phát triển này thường được tạo điều kiện thuận lợi bởi các khuôn khổ như PyTorch ( trang chủ PyTorch ) và TensorFlow ( trang chủ TensorFlow ) và được thử nghiệm trong các môi trường mô phỏng như Gymnasium . Các tổ chức nghiên cứu hàng đầu như DeepMind và các tổ chức học thuật như Hiệp hội vì sự tiến bộ của trí tuệ nhân tạo (AAAI) tiếp tục thúc đẩy sự tiến bộ trong lĩnh vực thú vị này.