Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Tăng Cường Sâu (Deep Reinforcement Learning)

Khám phá sức mạnh của học tăng cường sâu (deep reinforcement learning) — nơi AI học các hành vi phức tạp để giải quyết các thách thức trong trò chơi, robot, chăm sóc sức khỏe, v.v.

Học Tăng cường Sâu (DRL) là một lĩnh vực nâng cao của học máy (ML) , kết hợp các khuôn khổ ra quyết định của học tăng cường với khả năng nhận thức mạnh mẽ của học sâu (DL) . Trong khi học tăng cường truyền thống dựa vào phương pháp thử và sai để tối ưu hóa hành vi trong các môi trường đơn giản, DRL tích hợp các mạng nơ-ron đa lớp để diễn giải dữ liệu cảm biến đa chiều, chẳng hạn như khung hình video hoặc các phép đo cảm biến phức tạp. Sự tích hợp này cho phép tác nhân AI học các chiến lược phức tạp để giải quyết các vấn đề khó khăn trong môi trường động, phi cấu trúc, từ điều hướng tự động đến chơi trò chơi chiến lược.

Cơ chế của Học tăng cường sâu

Trọng tâm của DRL là sự tương tác giữa tác nhân và môi trường của nó, thường được mô hình hóa toán học như một Quy trình Quyết định Markov (MDP) . Không giống như học có giám sát , trong đó mô hình được huấn luyện trên một tập dữ liệu được gắn nhãn với các câu trả lời đúng đã biết, tác nhân DRL học bằng cách khám phá. Nó quan sát trạng thái hiện tại, thực hiện một hành động và nhận được tín hiệu phản hồi được gọi là "phần thưởng".

Để xử lý các đầu vào phức tạp, DRL sử dụng mạng nơ-ron tích chập (CNN) hoặc các kiến trúc sâu khác để ước tính giá trị của các hành động cụ thể. Thông qua các quá trình như lan truyền ngượcgiảm dần độ dốc , mạng điều chỉnh trọng số mô hình để tối đa hóa phần thưởng tích lũy theo thời gian. Các thuật toán như Mạng Q Sâu (DQN) và Tối ưu hóa Chính sách Gần (PPO) đóng vai trò quan trọng trong việc ổn định quá trình đào tạo này, cho phép các tác nhân tổng quát hóa việc học của mình trong các tình huống mới, chưa từng thấy.

Các Ứng dụng Thực tế

Tính linh hoạt của DRL đã dẫn đến những ứng dụng mang tính chuyển đổi trong nhiều ngành công nghiệp khác nhau:

  • Robot tiên tiến: Trong lĩnh vực AI trong robot , DRL cho phép máy móc thành thạo các kỹ năng vận động phức tạp. Ví dụ, robot có thể học cách thao tác vật thể hoặc di chuyển trên địa hình không bằng phẳng bằng cách liên tục tinh chỉnh chuyển động của chúng dựa trên các môi trường mô phỏng vật lý như NVIDIA Isaac Sim .
  • Hệ thống tự hành: Xe tự hành tận dụng DRL để đưa ra quyết định theo thời gian thực trong điều kiện giao thông bất định. Bằng cách xử lý dữ liệu đầu vào từ LiDAR và camera, các hệ thống này học các chính sách lái xe an toàn để nhập làn và điều hướng giao lộ, thường sử dụng công nghệ thị giác máy tính (CV) để phân tích hình ảnh trực quan.
  • Trò chơi chiến lược: DRL nổi tiếng toàn cầu khi các hệ thống như AlphaGo của DeepMind đánh bại các nhà vô địch thế giới. Các tác nhân này khám phá hàng triệu chiến lược tiềm năng trong mô phỏng, khám phá ra những chiến thuật mới lạ vượt qua trực giác của con người.

Tích hợp thị giác máy tính như một người quan sát trạng thái

Đối với nhiều ứng dụng DRL, "trạng thái" biểu thị thông tin trực quan. Các mô hình phát hiện đối tượng tốc độ cao có thể đóng vai trò như mắt của tác nhân, chuyển đổi các pixel thô thành dữ liệu có cấu trúc mà mạng chính sách có thể xử lý.

Ví dụ sau minh họa cách YOLO11 có thể được sử dụng để trích xuất các quan sát trạng thái cho tác nhân DRL:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Phân biệt DRL với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt Deep Reinforcement Learning với các thuật ngữ tương tự để hiểu vị trí độc đáo của nó trong bối cảnh AI:

  • Học tăng cường (RL) : RL tiêu chuẩn là khái niệm nền tảng nhưng thường dựa vào các bảng tra cứu (như bảng Q), vốn không thực tế đối với các không gian trạng thái lớn. DRL giải quyết vấn đề này bằng cách sử dụng học sâu để ước lượng các chính sách, cho phép nó xử lý các đầu vào phức tạp như hình ảnh.
  • Học tăng cường từ phản hồi của con người (RLHF) : Trong khi DRL thường tối ưu hóa cho hàm phần thưởng được xác định theo toán học (ví dụ: điểm trong trò chơi), RLHF tinh chỉnh các mô hình—cụ thể là Mô hình ngôn ngữ lớn (LLM) —bằng cách sử dụng sở thích chủ quan của con người để điều chỉnh hành vi AI phù hợp với các giá trị của con người.
  • Học không giám sát : Các phương pháp học không giám sát tìm kiếm các mẫu ẩn trong dữ liệu mà không có phản hồi rõ ràng. Ngược lại, DRL hướng đến mục tiêu, được điều khiển bởi tín hiệu phần thưởng hướng dẫn tác nhân đến một mục tiêu cụ thể.

Công Cụ và Framework

Việc phát triển các hệ thống DRL đòi hỏi hệ sinh thái phần mềm mạnh mẽ. Các nhà nghiên cứu dựa vào các nền tảng như PyTorchTensorFlow để xây dựng các mạng nơ-ron cơ bản. Các nền tảng này thường được kết hợp với các thư viện giao diện chuẩn như Gymnasium (trước đây là OpenAI Gym), cung cấp một bộ sưu tập các môi trường để kiểm tra và đánh giá các thuật toán. Việc đào tạo các mô hình này đòi hỏi khối lượng tính toán lớn, thường đòi hỏi GPU hiệu năng cao để xử lý hàng triệu bước mô phỏng cần thiết cho sự hội tụ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay