Bảng chú giải thuật ngữ

Học tăng cường (Reinforcement Learning)

Khám phá học tăng cường, nơi các tác nhân tối ưu hóa hành động thông qua thử và sai để tối đa hóa phần thưởng. Khám phá các khái niệm, ứng dụng và lợi ích!

Học tăng cường (Reinforcement Learning - RL) là một lĩnh vực của học máy (ML) nơi một tác nhân thông minh học cách đưa ra các quyết định tối ưu thông qua thử và sai. Không giống như các mô hình học tập khác, tác nhân không được cho biết phải thực hiện hành động nào. Thay vào đó, nó tương tác với một môi trường và nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu cơ bản của tác nhân là học một chiến lược, được gọi là chính sách, để tối đa hóa phần thưởng tích lũy của nó theo thời gian. Cách tiếp cận này được lấy cảm hứng từ tâm lý học hành vi và đặc biệt mạnh mẽ để giải quyết các vấn đề ra quyết định tuần tự, như được trình bày trong văn bản nền tảng của Sutton và Barto.

Cách Học Tăng Cường Hoạt Động

Quy trình RL được mô hình hóa như một vòng phản hồi liên tục bao gồm một số thành phần chính:

Tác nhân (Agent): Người học và ra quyết định, chẳng hạn như robot hoặc chương trình chơi trò chơi.
Môi trường: Thế giới bên ngoài mà tác nhân tương tác.
Trạng thái: Một ảnh chụp nhanh của môi trường tại một thời điểm cụ thể, cung cấp cho agent thông tin cần thiết để đưa ra quyết định.
Hành động: Một nước đi được tác nhân chọn từ một tập hợp các tùy chọn khả thi.
Phần thưởng: Một tín hiệu số được gửi từ môi trường đến tác nhân sau mỗi hành động, cho biết mức độ mong muốn của hành động đó.

Agent quan sát trạng thái hiện tại của môi trường, thực hiện một hành động và nhận được phần thưởng cùng với trạng thái tiếp theo. Chu kỳ này lặp lại và thông qua kinh nghiệm này, agent dần dần tinh chỉnh chính sách của mình để ưu tiên các hành động dẫn đến phần thưởng dài hạn cao hơn. Khuôn khổ chính thức cho vấn đề này thường được mô tả bằng một Quá trình quyết định Markov (MDP). Các thuật toán RL phổ biến bao gồm Q-learning và Policy Gradients.

So sánh với các mô hình học khác

Học tăng cường (RL) khác biệt so với các loại hình học máy chính khác:

Học có giám sát (Supervised Learning): Trong học có giám sát, một mô hình học từ một bộ dữ liệu (dataset) được gắn nhãn đầy đủ với các câu trả lời chính xác. Ví dụ: một mô hình phân loại hình ảnh (image classification) được huấn luyện trên các hình ảnh có nhãn rõ ràng. Ngược lại, RL học từ các tín hiệu phần thưởng mà không cần giám sát rõ ràng về hành động tốt nhất ở mỗi bước. Bạn có thể khám phá so sánh chi tiết về học có giám sát và học không giám sát.
Học không giám sát: Mô hình này liên quan đến việc tìm kiếm các mẫu hoặc cấu trúc ẩn trong dữ liệu không được gắn nhãn. Mục tiêu của nó là khám phá dữ liệu, như sử dụng k-means clustering (phân cụm k-means), thay vì ra quyết định để tối đa hóa phần thưởng.
Học tăng cường sâu (Deep Reinforcement Learning - DRL): DRL không phải là một mô hình khác mà là một dạng RL nâng cao, sử dụng mạng nơ-ron sâu (deep neural networks) để xử lý các không gian trạng thái và hành động phức tạp, chiều cao. Điều này cho phép RL mở rộng quy mô cho các vấn đề trước đây được coi là khó giải quyết, chẳng hạn như xử lý dữ liệu pixel thô từ camera cho xe tự hành (autonomous vehicles).

Các Ứng dụng Thực tế

Học tăng cường (RL) đã đạt được thành công đáng kể trong nhiều lĩnh vực phức tạp:

Chơi game (Game Playing): Các tác nhân RL đã đạt được hiệu suất siêu phàm trong các trò chơi phức tạp. Một ví dụ nổi bật là AlphaGo của DeepMind, đã học cách đánh bại những người chơi cờ Go giỏi nhất thế giới. Một ví dụ khác là công việc của OpenAI trên Dota 2, nơi một tác nhân đã học được các chiến lược nhóm phức tạp.
Robotics (ngành robot): RL được sử dụng để huấn luyện robot thực hiện các nhiệm vụ phức tạp như điều khiển đối tượng, lắp ráp và di chuyển. Thay vì được lập trình rõ ràng, một robot có thể học cách đi bộ hoặc nắm bắt các đối tượng bằng cách được thưởng cho những nỗ lực thành công trong một môi trường mô phỏng hoặc thực tế. Đây là một lĩnh vực nghiên cứu quan trọng tại các tổ chức như Berkeley Artificial Intelligence Research (BAIR) Lab.
Quản lý tài nguyên: Tối ưu hóa các hoạt động trong các hệ thống phức tạp, chẳng hạn như quản lý luồng giao thông trong thành phố, cân bằng tải trong lưới điện và tối ưu hóa các phản ứng hóa học.
Hệ thống gợi ý (Recommendation Systems): RL có thể được sử dụng để tối ưu hóa chuỗi các mục được đề xuất cho người dùng để tối đa hóa sự tương tác và mức độ hài lòng lâu dài, thay vì chỉ các nhấp chuột ngay lập tức.

Mức độ Liên quan Trong Hệ sinh thái AI

Học tăng cường là một thành phần quan trọng của bức tranh toàn cảnh Trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là để tạo ra các hệ thống tự động. Trong khi các công ty như Ultralytics chuyên về các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân vùng thể hiện (instance segmentation) bằng cách sử dụng học có giám sát, thì khả năng nhận thức của các mô hình này là đầu vào thiết yếu cho các tác nhân RL.

Ví dụ: một robot có thể sử dụng mô hình YOLO để nhận thức, được triển khai thông qua Ultralytics HUB, để hiểu môi trường xung quanh ("trạng thái"). Sau đó, một chính sách RL sử dụng thông tin này để quyết định bước đi tiếp theo. Sự kết hợp giữa Thị giác máy tính (CV) để nhận thức và RL để ra quyết định là nền tảng để xây dựng các hệ thống thông minh. Các hệ thống này thường được phát triển bằng các framework như PyTorch và TensorFlow và thường được thử nghiệm trong các môi trường mô phỏng tiêu chuẩn như Gymnasium (trước đây là OpenAI Gym). Để cải thiện sự phù hợp của mô hình với sở thích của con người, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) cũng ngày càng trở nên quan trọng trong lĩnh vực này. Sự tiến bộ trong RL liên tục được thúc đẩy bởi các tổ chức như DeepMind và các hội nghị học thuật như NeurIPS.

Học tăng cường (Reinforcement Learning)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách Học Tăng Cường Hoạt Động

So sánh với các mô hình học khác

Các Ứng dụng Thực tế

Mức độ Liên quan Trong Hệ sinh thái AI

Đọc thêm trong danh mục này

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tham gia cộng đồng Ultralytics