Thuật ngữ

Học tăng cường sâu

Khám phá sức mạnh của công nghệ học tăng cường sâu - nơi AI học các hành vi phức tạp để giải quyết các thách thức trong trò chơi, robot, chăm sóc sức khỏe, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tăng cường sâu (DRL) kết hợp các nguyên tắc của Học tăng cường (RL) với sức mạnh của Học sâu (DL) . Nó cho phép các tác nhân phần mềm học các hành vi tối ưu trong các môi trường phức tạp, thường là nhiều chiều thông qua thử nghiệm và sai sót. Không giống như RL truyền thống, có thể gặp khó khăn với các không gian trạng thái rộng lớn (như dữ liệu pixel thô từ máy ảnh), DRL sử dụng mạng nơ-ron sâu (NN) để ước tính các hàm cần thiết cho việc học, chẳng hạn như hàm giá trị (dự đoán phần thưởng trong tương lai) hoặc chính sách (ánh xạ trạng thái thành hành động). Điều này cho phép các tác nhân DRL giải quyết các vấn đề trước đây khó giải quyết, học trực tiếp từ các đầu vào cảm biến phức tạp như hình ảnh hoặc số liệu đọc cảm biến.

Học tăng cường sâu hoạt động như thế nào

Về bản chất, DRL liên quan đến một tác nhân tương tác với môi trường qua các bước thời gian rời rạc. Quá trình này thường diễn ra như sau:

  1. Quan sát: Tác nhân quan sát trạng thái hiện tại của môi trường. Trong DRL, trạng thái này có thể được biểu diễn bằng dữ liệu đa chiều, chẳng hạn như các pixel hình ảnh được xử lý bởi Mạng nơ-ron tích chập (CNN) .
  2. Lựa chọn hành động: Dựa trên trạng thái được quan sát, tác nhân sẽ lựa chọn hành động bằng chính sách của mình, được biểu diễn bằng mạng nơ-ron sâu.
  3. Tương tác: Tác nhân thực hiện hành động đã chọn, dẫn dắt môi trường chuyển sang trạng thái mới.
  4. Phản hồi (Phần thưởng): Môi trường cung cấp tín hiệu phần thưởng vô hướng, cho biết hành động đó tốt hay xấu ở trạng thái trước đó.
  5. Học tập: Tác nhân sử dụng tín hiệu phần thưởng và quá trình chuyển đổi trạng thái để cập nhật mạng nơ-ron (chính sách hoặc hàm giá trị) thông qua các thuật toán như truyền ngượcgiảm dần độ dốc . Mục tiêu là điều chỉnh trọng số của mạng để tối đa hóa phần thưởng tích lũy trong tương lai theo thời gian. Vòng lặp học tập này lặp lại, cho phép tác nhân cải thiện dần dần chiến lược ra quyết định của mình.

Các khái niệm chính trong DRL

Để hiểu được DRL, bạn cần phải quen thuộc với một số ý tưởng cốt lõi từ Học tăng cường, hiện được mở rộng bằng các kỹ thuật học sâu:

  • Tác nhân: Thuật toán hoặc mô hình học để đưa ra quyết định.
  • Môi trường: Thế giới hoặc hệ thống mà tác nhân tương tác (ví dụ: mô phỏng trò chơi, môi trường xung quanh của rô-bốt vật lý). Các môi trường chuẩn hóa để nghiên cứu thường được cung cấp bởi các bộ công cụ như Gymnasium (trước đây là OpenAI Gym) .
  • Trạng thái: Biểu diễn môi trường tại một thời điểm cụ thể. DRL xử lý tốt các trạng thái được biểu diễn bằng lượng dữ liệu lớn, như hình ảnh hoặc mảng cảm biến.
  • Hành động: Quyết định do tác nhân đưa ra có ảnh hưởng đến môi trường.
  • Phần thưởng: Phản hồi số từ môi trường cho biết mong muốn ngay lập tức của một hành động được thực hiện trong một trạng thái.
  • Chính sách: Chiến lược của tác nhân, ánh xạ trạng thái thành hành động. Trong DRL, đây thường là mạng nơ-ron sâu.
  • Hàm giá trị: Ước tính phần thưởng tích lũy dài hạn dự kiến từ một trạng thái hoặc cặp trạng thái-hành động nhất định. Điều này cũng thường được biểu diễn bằng mạng nơ-ron sâu.
  • Khám phá so với Khai thác: Một sự đánh đổi cơ bản trong đó tác nhân phải cân bằng giữa việc thử các hành động mới để khám phá ra các chiến lược tốt hơn (khám phá) so với việc bám sát các hành động tốt đã biết (khai thác).

DRL so với các mô hình học máy khác

DRL khác biệt đáng kể so với các phương pháp Học máy (ML) chính khác:

  • Học có giám sát : Học từ một tập dữ liệu chứa các ví dụ được gắn nhãn (cặp đầu vào-đầu ra). Các tác vụ như phân loại hình ảnh hoặc phát hiện đối tượng bằng các mô hình như Ultralytics YOLO thuộc loại này. Ngược lại, DRL học từ các tín hiệu phần thưởng mà không có câu trả lời đúng rõ ràng cho từng trạng thái.
  • Học không giám sát : Học các mẫu và cấu trúc từ dữ liệu không có nhãn (ví dụ: phân cụm). DRL tập trung vào việc học hành vi hướng đến mục tiêu thông qua tương tác và phản hồi.
  • Học tăng cường (RL) : DRL là một loại RL cụ thể sử dụng mạng nơ-ron sâu. RL truyền thống thường sử dụng các biểu diễn đơn giản hơn như bảng (bảng Q) không khả thi đối với các vấn đề có không gian trạng thái rất lớn hoặc liên tục, nơi DRL tỏa sáng.

Ứng dụng trong thế giới thực

DRL đã thúc đẩy những đột phá trong nhiều lĩnh vực phức tạp:

  • Robot : Đào tạo robot thực hiện các nhiệm vụ phức tạp như thao tác vật thể, di chuyển và lắp ráp, thường học trực tiếp từ dữ liệu đầu vào của camera hoặc dữ liệu cảm biến. Điều này được khám phá trong các tài nguyên như Vai trò của AI trong Robot .
  • Chơi trò chơi: Đạt được hiệu suất siêu phàm trong các trò chơi phức tạp, chẳng hạn như Cờ vây ( AlphaGo của DeepMind ) và nhiều trò chơi điện tử khác ( OpenAI Five cho Dota 2 ).
  • Xe tự hành : Phát triển các chính sách kiểm soát tinh vi để điều hướng, lập kế hoạch đường đi và ra quyết định trong các tình huống giao thông động, như đã thảo luận trong AI trong xe tự lái .
  • Tối ưu hóa tài nguyên: Quản lý các hệ thống phức tạp như lưới điện ( AI trong năng lượng tái tạo ), điều khiển tín hiệu giao thông ( AI trong quản lý giao thông ) và tối ưu hóa phản ứng hóa học.
  • Hệ thống đề xuất : Tối ưu hóa chuỗi đề xuất để tối đa hóa sự hài lòng hoặc tương tác lâu dài của người dùng.
  • Chăm sóc sức khỏe: Khám phá các chính sách điều trị hoặc liều lượng thuốc tối ưu dựa trên tình trạng và kết quả của bệnh nhân, đóng góp vào các lĩnh vực như AI trong chăm sóc sức khỏe .

Sự liên quan trong hệ sinh thái AI

Học tăng cường sâu đại diện cho một lĩnh vực quan trọng của nghiên cứu Trí tuệ nhân tạo (AI) , mở rộng ranh giới của tính tự chủ của máy móc và khả năng ra quyết định. Trong khi các công ty như Ultralytics tập trung chủ yếu vào các mô hình tầm nhìn tiên tiến như Ultralytics YOLO đối với các nhiệm vụ như phát hiện đối tượngphân đoạn hình ảnh bằng cách sử dụng học có giám sát, đầu ra của các hệ thống nhận thức như vậy thường là đầu vào quan trọng cho các tác nhân DRL. Ví dụ, một robot có thể sử dụng Ultralytics YOLO mô hình được triển khai thông qua Ultralytics HUB để nhận thức môi trường của nó (biểu diễn trạng thái) trước khi chính sách DRL quyết định hành động tiếp theo. Hiểu DRL cung cấp bối cảnh về cách nhận thức nâng cao phù hợp với các hệ thống tự chủ rộng hơn và các vấn đề kiểm soát phức tạp được cộng đồng AI giải quyết bằng các bộ công cụ như Gymnasium và các khuôn khổ như PyTorch ( trang chủ PyTorch ) và TensorFlow ( trang chủ TensorFlow ). Các tổ chức nghiên cứu như DeepMind và các tổ chức học thuật như Hiệp hội vì sự tiến bộ của trí tuệ nhân tạo (AAAI) tiếp tục thúc đẩy tiến bộ trong lĩnh vực thú vị này.

Đọc tất cả