Thuật ngữ

Học tăng cường sâu

Khám phá sức mạnh của công nghệ học tăng cường sâu - nơi AI học các hành vi phức tạp để giải quyết các thách thức trong trò chơi, robot, chăm sóc sức khỏe, v.v.

Học Tăng cường Sâu (DRL) là một nhánh của Học Máy (ML) , kết hợp các nguyên lý của Học Tăng cường (RL) với sức mạnh của Học Sâu (DL) . Nó cho phép tác nhân AI học các chiến lược ra quyết định tối ưu thông qua thử nghiệm và sai sót trong các môi trường phức tạp, đa chiều. Bằng cách sử dụng mạng nơ-ron sâu, các mô hình DRL có thể xử lý dữ liệu cảm biến thô, chẳng hạn như pixel từ hình ảnh hoặc dữ liệu cảm biến, mà không cần kỹ thuật tính năng thủ công. Điều này cho phép chúng giải quyết các vấn đề mà trước đây các phương pháp RL truyền thống không thể giải quyết.

Học tăng cường sâu hoạt động như thế nào

Trong một thiết lập DRL điển hình, một tác nhân tương tác với môi trường qua một chuỗi các bước thời gian. Tại mỗi bước, tác nhân quan sát trạng thái của môi trường, thực hiện một hành động và nhận được phần thưởng hoặc hình phạt. Mục tiêu là học một chính sách—một chiến lược để lựa chọn hành động—nhằm tối đa hóa tổng phần thưởng tích lũy theo thời gian. Phần "sâu" của DRL đến từ việc sử dụng mạng nơ-ron sâu để ước tính chính sách đó hoặc một hàm giá trị ước tính mức độ mong muốn của các trạng thái hoặc hành động. Mạng này được huấn luyện bằng các thuật toán như giảm dần độ dốc để điều chỉnh trọng số mô hình dựa trên phần thưởng nhận được. Toàn bộ quá trình này được chính thức hóa bằng Quy trình Quyết định Markov (MDP) , cung cấp nền tảng toán học cho việc mô hình hóa quá trình ra quyết định tuần tự.

Sự khác biệt với các khái niệm khác

Điều quan trọng là phải phân biệt DRL với các thuật ngữ liên quan:

  • Học Tăng cường (RL) : DRL là một dạng RL hiện đại và tiên tiến. Trong khi RL truyền thống thường dựa vào bảng hoặc hàm tuyến tính để ánh xạ trạng thái thành hành động, nó gặp khó khăn với không gian trạng thái lớn (ví dụ: tất cả các tổ hợp pixel có thể có trên màn hình). DRL khắc phục hạn chế này bằng cách sử dụng mạng nơ-ron sâu làm bộ xấp xỉ hàm mạnh mẽ.
  • Học sâu (DL) : DL là công nghệ hỗ trợ khả năng xử lý các đầu vào phức tạp của DRL. Trong khi DL thường được liên kết với học có giám sát , trong đó các mô hình học từ các tập dữ liệu được gắn nhãn, DRL học từ phản hồi thưa thớt của phần thưởng, khiến nó phù hợp cho các tác vụ tối ưu hóa và kiểm soát.
  • Học có giám sát : Mô hình học này yêu cầu một tập dữ liệu được gắn nhãn để huấn luyện mô hình đưa ra dự đoán. Ngược lại, DRL không cần dữ liệu được gắn nhãn; thay vào đó, nó tự tạo dữ liệu thông qua tương tác với môi trường, được hướng dẫn bởi tín hiệu khen thưởng. Điều này làm cho nó rất hiệu quả đối với các vấn đề mà dữ liệu được gắn nhãn khan hiếm hoặc không có sẵn.

Ứng dụng trong thế giới thực

DRL đã thúc đẩy những đột phá trong nhiều lĩnh vực phức tạp:

  • Chơi game: Một trong những ví dụ nổi tiếng nhất là AlphaGo của DeepMind , đã đánh bại kỳ thủ cờ vây hàng đầu thế giới. Trí tuệ nhân tạo DRL đã học hỏi bằng cách tự chơi hàng triệu ván cờ với chính mình, sử dụng trạng thái trực quan của bàn cờ để đưa ra quyết định chiến lược. Tương tự, OpenAI Five đã học cách chơi trò chơi điện tử phức tạp Dota 2 ở cấp độ siêu phàm.
  • Robot : DRL được sử dụng để huấn luyện robot thực hiện các nhiệm vụ phức tạp như thao tác vật thể, di chuyển và lắp ráp. Ví dụ, robot có thể học cách nhặt các vật thể lạ bằng cách xử lý trực tiếp dữ liệu từ camera và nhận được phần thưởng tích cực cho những lần nhặt thành công, một chủ đề đã được thảo luận trong các cuộc thảo luận về vai trò của AI trong robot .
  • Xe tự hành : DRL giúp phát triển các chính sách kiểm soát tinh vi cho việc điều hướng, lập kế hoạch đường đi và ra quyết định trong các tình huống giao thông động, như được trình bày chi tiết trong các bài viết về AI trong xe tự lái .
  • Quản lý Tài nguyên: DRL có thể tối ưu hóa các hệ thống phức tạp như lưới điện, điều khiển tín hiệu giao thông và tối ưu hóa phản ứng hóa học. Một ví dụ là sử dụng DRL để quản lý lưu lượng giao thông trong các thành phố thông minh .
  • Hệ thống đề xuất : DRL có thể tối ưu hóa trình tự các đề xuất hiển thị cho người dùng để tối đa hóa sự hài lòng hoặc gắn kết lâu dài.
  • Chăm sóc sức khỏe: DRL đang được khám phá để tìm ra các chính sách điều trị tối ưu và liều lượng thuốc dựa trên tình trạng bệnh nhân, góp phần vào lĩnh vực AI rộng hơn trong chăm sóc sức khỏe .

Sự liên quan trong Hệ sinh thái AI

Học tăng cường sâu đang đi đầu trong nghiên cứu AI , mở rộng ranh giới của khả năng tự chủ của máy móc. Trong khi các công ty như Ultralytics tập trung chủ yếu vào các mô hình thị giác tiên tiến như Ultralytics YOLO cho các nhiệm vụ như phát hiện đối tượngphân đoạn hình ảnh , thì đầu ra của các hệ thống nhận thức này thường là đầu vào quan trọng cho các tác nhân DRL. Ví dụ: một robot có thể sử dụng mô hình Ultralytics YOLO được triển khai thông qua Ultralytics HUB để nhận thức môi trường của nó (biểu diễn trạng thái) trước khi chính sách DRL quyết định hành động tiếp theo. Hiểu về DRL cung cấp bối cảnh về cách nhận thức nâng cao phù hợp với các hệ thống tự chủ rộng hơn. Sự phát triển này thường được tạo điều kiện thuận lợi bởi các khuôn khổ như PyTorch ( trang chủ PyTorch ) và TensorFlow ( trang chủ TensorFlow ) và được thử nghiệm trong các môi trường mô phỏng như Gymnasium . Các tổ chức nghiên cứu hàng đầu như DeepMind và các tổ chức học thuật như Hiệp hội vì sự tiến bộ của trí tuệ nhân tạo (AAAI) tiếp tục thúc đẩy sự tiến bộ trong lĩnh vực thú vị này.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard