Thuật ngữ

Học tăng cường

Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử nghiệm và sai sót để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!

Học Tăng cường (RL) là một lĩnh vực của học máy (ML), trong đó một tác nhân thông minh học cách đưa ra quyết định tối ưu thông qua thử nghiệm và sai sót. Không giống như các mô hình học tập khác, tác nhân không được chỉ định phải thực hiện hành động nào. Thay vào đó, nó tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, giúp tối đa hóa phần thưởng tích lũy theo thời gian. Phương pháp này lấy cảm hứng từ tâm lý học hành vi và đặc biệt hiệu quả trong việc giải quyết các vấn đề ra quyết định tuần tự, như được nêu trong văn bản nền tảng của Sutton và Barto .

Học tăng cường hoạt động như thế nào

Quá trình RL được mô hình hóa như một vòng phản hồi liên tục bao gồm một số thành phần chính:

  • Tác nhân: Người học và người ra quyết định, chẳng hạn như robot hoặc chương trình chơi trò chơi.
  • Môi trường: Thế giới bên ngoài mà tác nhân tương tác.
  • Trạng thái: Ảnh chụp nhanh môi trường tại một thời điểm cụ thể, cung cấp cho tác nhân thông tin cần thiết để đưa ra quyết định.
  • Hành động: Một động thái được tác nhân lựa chọn từ một tập hợp các tùy chọn có thể.
  • Phần thưởng: Tín hiệu số được gửi từ môi trường đến tác nhân sau mỗi hành động, cho biết hành động đó mong muốn như thế nào.

Tác nhân quan sát trạng thái hiện tại của môi trường, thực hiện một hành động và nhận được phần thưởng cùng với trạng thái tiếp theo. Chu kỳ này lặp lại, và thông qua trải nghiệm này, tác nhân dần dần tinh chỉnh chính sách của mình để ưu tiên các hành động dẫn đến phần thưởng dài hạn cao hơn. Khuôn khổ chính thức cho bài toán này thường được mô tả bằng Quy trình Quyết định Markov (MDP) . Các thuật toán RL phổ biến bao gồm Q-learning và Policy Gradients.

So sánh với các mô hình học tập khác

RL khác biệt so với các loại hình học máy chính khác:

  • Học có giám sát : Trong học có giám sát, một mô hình học từ một tập dữ liệu được gắn nhãn đầy đủ với các câu trả lời đúng. Ví dụ: một mô hình phân loại hình ảnh được huấn luyện trên các hình ảnh có nhãn rõ ràng. Ngược lại, học có giám sát (RL) học từ các tín hiệu khen thưởng mà không cần giám sát rõ ràng về hành động tốt nhất ở mỗi bước. Bạn có thể khám phá so sánh chi tiết giữa học có giám sát và học không giám sát .
  • Học không giám sát : Mô hình này liên quan đến việc tìm kiếm các mẫu hoặc cấu trúc ẩn trong dữ liệu chưa được gắn nhãn. Mục tiêu của nó là khám phá dữ liệu, giống như sử dụng phân cụm k-means , thay vì đưa ra quyết định để tối đa hóa phần thưởng.
  • Học Tăng cường Sâu (DRL) : DRL không phải là một mô hình khác mà là một dạng học tăng cường nâng cao sử dụng mạng nơ-ron sâu để xử lý các không gian trạng thái và hành động phức tạp, đa chiều. Điều này cho phép RL mở rộng quy mô để giải quyết các vấn đề trước đây được coi là khó khăn, chẳng hạn như xử lý dữ liệu pixel thô từ camera cho xe tự hành .

Ứng dụng trong thế giới thực

RL đã đạt được thành công đáng kể trong nhiều lĩnh vực phức tạp:

  • Chơi game : Các đặc vụ thực tế ảo (RL) đã đạt được hiệu suất siêu phàm trong các trò chơi phức tạp. Một ví dụ nổi bật là AlphaGo của DeepMind , đã học cách đánh bại những kỳ thủ cờ vây giỏi nhất thế giới. Một ví dụ khác là công trình của OpenAI trên Dota 2 , nơi một đặc vụ đã học được các chiến thuật đồng đội phức tạp.
  • Robot : Trí tuệ nhân tạo (RL) được sử dụng để huấn luyện robot thực hiện các nhiệm vụ phức tạp như thao tác vật thể, lắp ráp và di chuyển. Thay vì được lập trình rõ ràng, robot có thể học cách đi bộ hoặc cầm nắm vật thể bằng cách được thưởng cho những nỗ lực thành công trong môi trường mô phỏng hoặc thực tế. Đây là một lĩnh vực nghiên cứu quan trọng tại các tổ chức như Phòng thí nghiệm Nghiên cứu Trí tuệ Nhân tạo Berkeley (BAIR) .
  • Quản lý tài nguyên: Tối ưu hóa hoạt động trong các hệ thống phức tạp, chẳng hạn như quản lý lưu lượng giao thông trong thành phố, cân bằng tải trong lưới điện và tối ưu hóa phản ứng hóa học.
  • Hệ thống đề xuất : RL có thể được sử dụng để tối ưu hóa trình tự các mục được đề xuất cho người dùng nhằm tối đa hóa sự tương tác và hài lòng lâu dài, thay vì chỉ nhấp chuột ngay lập tức.

Sự liên quan trong hệ sinh thái AI

Học Tăng cường (Reinforcement Learning) là một thành phần quan trọng của bối cảnh Trí tuệ Nhân tạo (AI) rộng lớn hơn, đặc biệt là trong việc tạo ra các hệ thống tự động. Mặc dù các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn thực thể bằng học có giám sát, khả năng nhận thức của các mô hình này lại là yếu tố đầu vào thiết yếu cho các tác nhân RL.

Ví dụ, một robot có thể sử dụng mô hình YOLO để nhận thức, được triển khai thông qua Ultralytics HUB , để hiểu môi trường xung quanh ("trạng thái"). Sau đó, một chính sách RL sẽ sử dụng thông tin này để quyết định bước đi tiếp theo. Sự phối hợp giữa Thị giác Máy tính (CV) để nhận thức và RL để ra quyết định là nền tảng cho việc xây dựng các hệ thống thông minh. Các hệ thống này thường được phát triển bằng các nền tảng như PyTorchTensorFlow , và thường xuyên được kiểm tra trong các môi trường mô phỏng tiêu chuẩn như Gymnasium (trước đây là OpenAI Gym) . Để cải thiện sự phù hợp của mô hình với sở thích của con người, các kỹ thuật như Học Tăng cường từ Phản hồi của Con người (RLHF) cũng đang ngày càng trở nên quan trọng trong lĩnh vực này. Tiến bộ trong RL liên tục được thúc đẩy bởi các tổ chức như DeepMind và các hội nghị học thuật như NeurIPS .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard