Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Học tăng cường (Reinforcement Learning)

Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử và sai để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!

Học tăng cường (Reinforcement Learning - RL) là một lĩnh vực của học máy (ML) nơi một tác nhân thông minh học cách đưa ra các quyết định tối ưu thông qua thử và sai. Không giống như các mô hình học tập khác, tác nhân không được cho biết phải thực hiện hành động nào. Thay vào đó, nó tương tác với một môi trường và nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, để tối đa hóa phần thưởng tích lũy của nó theo thời gian. Cách tiếp cận này được lấy cảm hứng từ tâm lý học hành vi và đặc biệt mạnh mẽ để giải quyết các vấn đề ra quyết định tuần tự, như được trình bày trong văn bản nền tảng của Sutton và Barto.

Cách Học Tăng Cường Hoạt Động

Quy trình RL được mô hình hóa như một vòng phản hồi liên tục bao gồm một số thành phần chính:

  • Tác nhân (Agent): Người học và ra quyết định, chẳng hạn như robot hoặc chương trình chơi trò chơi.
  • Môi trường: Thế giới bên ngoài mà tác nhân tương tác.
  • Trạng thái: Một ảnh chụp nhanh của môi trường tại một thời điểm cụ thể, cung cấp cho agent thông tin cần thiết để đưa ra quyết định.
  • Hành động: Một nước đi được tác nhân chọn từ một tập hợp các tùy chọn khả thi.
  • Phần thưởng: Một tín hiệu số được gửi từ môi trường đến tác nhân sau mỗi hành động, cho biết mức độ mong muốn của hành động đó.

Agent quan sát trạng thái hiện tại của môi trường, thực hiện một hành động và nhận được phần thưởng cùng với trạng thái tiếp theo. Chu kỳ này lặp lại và thông qua kinh nghiệm này, agent dần dần tinh chỉnh chính sách của mình để ưu tiên các hành động dẫn đến phần thưởng dài hạn cao hơn. Khuôn khổ chính thức cho vấn đề này thường được mô tả bằng một Quá trình quyết định Markov (MDP). Các thuật toán RL phổ biến bao gồm Q-learning và Policy Gradients.

So sánh với các mô hình học khác

Học tăng cường (RL) khác biệt so với các loại hình học máy chính khác:

Các Ứng dụng Thực tế

Học tăng cường (RL) đã đạt được thành công đáng kể trong nhiều lĩnh vực phức tạp:

  • Chơi game (Game Playing): Các tác nhân RL đã đạt được hiệu suất siêu phàm trong các trò chơi phức tạp. Một ví dụ nổi bật là AlphaGo của DeepMind, đã học cách đánh bại những người chơi cờ Go giỏi nhất thế giới. Một ví dụ khác là công việc của OpenAI trên Dota 2, nơi một tác nhân đã học được các chiến lược nhóm phức tạp.
  • Robotics (ngành robot): RL được sử dụng để huấn luyện robot thực hiện các nhiệm vụ phức tạp như điều khiển đối tượng, lắp ráp và di chuyển. Thay vì được lập trình rõ ràng, một robot có thể học cách đi bộ hoặc nắm bắt các đối tượng bằng cách được thưởng cho những nỗ lực thành công trong một môi trường mô phỏng hoặc thực tế. Đây là một lĩnh vực nghiên cứu quan trọng tại các tổ chức như Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Quản lý tài nguyên: Tối ưu hóa các hoạt động trong các hệ thống phức tạp, chẳng hạn như quản lý luồng giao thông trong thành phố, cân bằng tải trong lưới điện và tối ưu hóa các phản ứng hóa học.
  • Hệ thống gợi ý (Recommendation Systems): RL có thể được sử dụng để tối ưu hóa chuỗi các mục được đề xuất cho người dùng để tối đa hóa sự tương tác và mức độ hài lòng lâu dài, thay vì chỉ các nhấp chuột ngay lập tức.

Mức độ Liên quan Trong Hệ sinh thái AI

Học tăng cường là một thành phần quan trọng của bức tranh toàn cảnh Trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là để tạo ra các hệ thống tự động. Trong khi các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân vùng thể hiện (instance segmentation) bằng cách sử dụng học có giám sát, thì khả năng nhận thức của các mô hình này là đầu vào thiết yếu cho các tác nhân RL.

Ví dụ: một robot có thể sử dụng mô hình YOLO để nhận thức, được triển khai thông qua Ultralytics HUB, để hiểu môi trường xung quanh ("trạng thái"). Sau đó, một chính sách RL sử dụng thông tin này để quyết định bước đi tiếp theo. Sự kết hợp giữa Thị giác máy tính (CV) để nhận thức và RL để ra quyết định là nền tảng để xây dựng các hệ thống thông minh. Các hệ thống này thường được phát triển bằng các framework như PyTorchTensorFlow và thường được thử nghiệm trong các môi trường mô phỏng tiêu chuẩn như Gymnasium (trước đây là OpenAI Gym). Để cải thiện sự phù hợp của mô hình với sở thích của con người, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) cũng ngày càng trở nên quan trọng trong lĩnh vực này. Sự tiến bộ trong RL liên tục được thúc đẩy bởi các tổ chức như DeepMind và các hội nghị học thuật như NeurIPS.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard