Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Deep Reinforcement Learning

Khám phá Deep Reinforcement Learning (DRL) và cách nó kết hợp việc ra quyết định của AI với học sâu. Tìm hiểu cách sử dụng Ultralytics YOLO26 làm lớp nhận thức ngay hôm nay.

Học tăng cường sâu (DRL) là một nhánh tiên tiến của trí tuệ nhân tạo (AI), kết hợp khả năng ra quyết định của học tăng cường với sức mạnh nhận thức của học sâu (DL). Trong khi học tăng cường truyền thống dựa vào các phương pháp bảng (tabular methods) để ánh xạ tình huống thành hành động, các phương pháp này thường gặp khó khăn khi môi trường trở nên phức tạp hoặc mang tính thị giác. DRL khắc phục điều này bằng cách sử dụng mạng thần kinh để giải mã dữ liệu đầu vào đa chiều, chẳng hạn như khung hình video hoặc dữ liệu cảm biến, cho phép máy móc học các chiến lược hiệu quả trực tiếp từ trải nghiệm thô mà không cần sự hướng dẫn chi tiết từ con người.

Link to this sectionCơ chế cốt lõi của DRL#

Trong một hệ thống DRL, một tác nhân AI tương tác với môi trường theo các bước thời gian rời rạc. Tại mỗi bước, tác nhân quan sát "trạng thái" hiện tại, chọn một hành động dựa trên chính sách (policy), và nhận tín hiệu phần thưởng chỉ ra sự thành công hay thất bại của hành động đó. Mục tiêu chính là tối đa hóa phần thưởng tích lũy theo thời gian.

Thành phần "sâu" đề cập đến việc sử dụng các mạng thần kinh sâu để xấp xỉ chính sách (chiến lược hành động) hoặc hàm giá trị (phần thưởng tương lai ước tính). Điều này cho phép tác nhân xử lý dữ liệu không cấu trúc, tận dụng thị giác máy tính (CV) để "nhìn" môi trường giống như cách con người làm. Khả năng này được vận hành bởi các framework như PyTorch hoặc TensorFlow, giúp hỗ trợ việc huấn luyện các mạng phức tạp này.

Link to this sectionCác ứng dụng trong thực tế#

DRL đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để tiến tới các ứng dụng thực tế, có tác động cao trong nhiều ngành công nghiệp:

  • Robot học nâng cao: Trong lĩnh vực AI trong robot, DRL cho phép máy móc nắm vững các kỹ năng vận động phức tạp vốn khó lập trình cứng. Robot có thể học cách nắm bắt các vật thể bất thường hoặc di chuyển trên địa hình không bằng phẳng bằng cách tinh chỉnh các chuyển động trong các công cụ mô phỏng vật lý như NVIDIA Isaac Sim. Quá trình này thường bao gồm việc huấn luyện trên dữ liệu tổng hợp trước khi triển khai chính sách lên phần cứng thực tế.
  • Xe tự hành: Xe tự hành tận dụng DRL để đưa ra các quyết định theo thời gian thực trong các tình huống giao thông khó dự đoán. Trong khi các mô hình phát hiện đối tượng xác định người đi bộ và biển báo, các thuật toán DRL sử dụng thông tin đó để xác định chính sách lái xe an toàn cho việc nhập làn, điều hướng giao lộ và kiểm soát tốc độ, đồng thời quản lý hiệu quả độ trễ suy luận cần thiết cho sự an toàn.

Link to this sectionThị giác như một bộ quan sát trạng thái#

Đối với nhiều ứng dụng DRL, "trạng thái" mang tính thị giác. Các mô hình tốc độ cao đóng vai trò như đôi mắt của tác nhân, chuyển đổi hình ảnh thô thành dữ liệu có cấu trúc mà mạng chính sách có thể xử lý. Ví dụ sau đây minh họa cách mô hình YOLO26 phục vụ như một lớp nhận thức cho tác nhân, trích xuất các quan sát (ví dụ: số lượng vật cản) từ môi trường.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionPhân biệt DRL với các khái niệm liên quan#

Việc phân biệt Học tăng cường sâu với các thuật ngữ tương tự rất hữu ích để hiểu vị thế độc đáo của nó trong hệ sinh thái AI:

  • Học tăng cường (RL): RL chuẩn là khái niệm nền tảng nhưng thường dựa vào các bảng tra cứu (như Q-tables), vốn trở nên thiếu thực tế đối với các không gian trạng thái lớn. DRL giải quyết vấn đề này bằng cách sử dụng học sâu để xấp xỉ các hàm, cho phép nó xử lý các đầu vào phức tạp như hình ảnh.
  • Học tăng cường từ phản hồi của con người (RLHF): Trong khi DRL thường tối ưu hóa cho một hàm phần thưởng được định nghĩa bằng toán học (ví dụ: điểm số trong trò chơi), RLHF tinh chỉnh các mô hình—đặc biệt là các Mô hình Ngôn ngữ Lớn (LLM)—sử dụng sở thích chủ quan của con người để căn chỉnh hành vi của AI với giá trị nhân văn, một kỹ thuật được phổ biến bởi các nhóm nghiên cứu như OpenAI.
  • Unsupervised Learning: Các phương pháp không giám sát tìm kiếm các mô hình ẩn trong dữ liệu mà không cần phản hồi rõ ràng. Ngược lại, DRL định hướng theo mục tiêu, được thúc đẩy bởi tín hiệu phần thưởng để chủ động hướng dẫn agent đạt được một mục tiêu cụ thể, như đã được thảo luận trong các tài liệu nền tảng của Sutton và Barto.

Các nhà phát triển muốn quản lý tập dữ liệu cần thiết cho các lớp nhận thức của hệ thống DRL có thể sử dụng Ultralytics Platform, giúp đơn giản hóa quy trình chú thích và huấn luyện trên đám mây. Ngoài ra, các nhà nghiên cứu thường sử dụng các môi trường tiêu chuẩn như Gymnasium để đánh giá thuật toán DRL của họ dựa trên các tiêu chuẩn đã thiết lập.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning