Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Group Relative Policy Optimization (GRPO)

Khám phá Group Relative Policy Optimization (GRPO). Tìm hiểu cách thuật toán RL không dùng critic, tiết kiệm bộ nhớ này tăng cường khả năng lập luận của LLM và cắt giảm chi phí đào tạo.

Group Relative Policy Optimization (GRPO) là một thuật toán reinforcement learning tiết kiệm bộ nhớ, được phát triển để nâng cao khả năng suy luận của các Large Language Models (LLMs) và các hệ thống Artificial Intelligence (AI) rộng hơn. Được giới thiệu lần đầu trong bài báo DeepSeekMath 2024, GRPO cải thiện các phương pháp tối ưu hóa truyền thống bằng cách loại bỏ nhu cầu về một mạng lưới giá trị riêng biệt (critic model). Thay vào đó, nó chuẩn hóa phần thưởng của một nhóm phản hồi được tạo ra từ cùng một prompt. Bằng cách đánh giá các phản hồi tương đối so với các phản hồi cùng nhóm, GRPO giảm đáng kể chi phí tính toán đồng thời tăng hiệu suất cho các tác vụ suy luận phức tạp trong các kiến trúc Deep Learning (DL) hiện đại.

Sự khác biệt giữa GRPO và PPO

Mặc dù GRPO có nhiều điểm tương đồng với Proximal Policy Optimization (PPO)—một thuật toán tối ưu hóa tiêu chuẩn thường được sử dụng trong học tăng cường từ phản hồi của con người (RLHF)—cả hai khác biệt đáng kể về kiến trúc. PPO yêu cầu một mô hình "critic" thứ cấp chạy song song với mạng lưới chính sách (policy network) để ước tính giá trị của một trạng thái nhất định. Điều này làm tăng gần gấp đôi lượng bộ nhớ cần thiết trong giai đoạn huấn luyện.

Ngược lại, GRPO là một thuật toán không cần critic. Bằng cách lấy mẫu nhiều đầu ra cho một prompt duy nhất và chấm điểm chúng bằng hệ thống phần thưởng dựa trên quy tắc hoặc trình xác minh, GRPO tính toán lợi thế bằng cách chuẩn hóa điểm số trong nhóm cụ thể đó. Việc so sánh tương đối này đóng vai trò như một baseline, giúp tiết kiệm lượng lớn bộ nhớ mà lẽ ra một mạng lưới giá trị sẽ chiếm dụng và đẩy nhanh quá trình huấn luyện mô hình tổng thể.

Các ứng dụng thực tế của GRPO

GRPO đã thúc đẩy một số đột phá gần đây trong generative AIxử lý ngôn ngữ tự nhiên. Hai ứng dụng đáng chú ý bao gồm:

  1. Mô hình suy luận toán học: Trong bản phát hành DeepSeek-R1 được trích dẫn rộng rãi và DeepSeekMath, GRPO đã được sử dụng để khuyến khích các mô hình phát triển chain-of-thought suy luận dài và tự xác minh, đạt hiệu suất tương đương với các mô hình độc quyền như o1 của OpenAI. Bằng cách thưởng cho các câu trả lời cuối cùng đúng và định dạng chính xác, thuật toán cho phép mô hình tự khám phá các chiến lược giải quyết vấn đề nâng cao mà không cần phải tinh chỉnh rộng rãi trên dữ liệu được con người chú giải.
  2. Tạo mã và logic tác tử: Đối với các mô hình viết mã hoặc cung cấp năng lượng cho các quy trình làm việc của tác tử tự chủ, việc đánh giá độ chính xác tuyệt đối là một thách thức. GRPO cho phép các mô hình học hỏi bằng cách thực thi các biến thể mã và chấm điểm tương đối dựa trên việc biên dịch thành công hoặc các trường hợp kiểm thử (test cases) đã vượt qua, giúp đẩy nhanh việc triển khai các trợ lý mã hóa AI có độ tin cậy cao.

Triển khai các khái niệm GRPO trong PyTorch

Về cốt lõi, GRPO tính toán lợi thế tương đối của các phản hồi bằng cách chuẩn hóa phần thưởng của chúng. Dưới đây là triển khai PyTorch cơ bản thể hiện quá trình chuẩn hóa này bằng cách sử dụng các phép toán tensor tiêu chuẩn:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Thúc đẩy AI với tối ưu hóa thông minh

Cũng giống như cách GRPO định nghĩa lại hiệu suất cho việc tạo văn bản, các kỹ thuật Machine Learning (ML) tiên tiến liên tục định hình lại thị giác máy tính. Tối ưu hóa kiến trúc và các hàm mất mát cho phép các nhà phát triển xây dựng các mô hình nhẹ hơn, nhanh hơn trên mọi lĩnh vực.

Đối với các tác vụ thị giác máy tính tiên tiến nhất, việc khám phá các tối ưu hóa đầu-cuối (end-to-end) cũng quan trọng không kém. Ví dụ, Ultralytics YOLO26 giới thiệu kiến trúc không cần NMS và các bộ tối ưu hóa lai lấy cảm hứng từ nghiên cứu LLM, cải thiện đáng kể việc triển khai trên thiết bị biên. Các nhà phát triển muốn tận dụng các quy trình làm việc thị giác máy tính hiệu quả có thể xây dựng, huấn luyện và triển khai mô hình một cách dễ dàng bằng cách sử dụng Nền tảng Ultralytics. Công cụ dựa trên đám mây này giúp đơn giản hóa việc quản lý tập dữ liệu phức tạp và tinh chỉnh siêu tham số cho các ứng dụng thị giác thời gian thực, mạnh mẽ.

Explore solutions

Real-time AI tailored to your operation

AI trong nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Tối ưu hóa việc giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. Thị giác máy tính AI nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong bán lẻ

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. Vision AI trong chăm sóc sức khỏe thúc đẩy hình ảnh y tế nhanh hơn, chẩn đoán thông minh hơn và giám sát bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý xếp hàng và hiểu biết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong lĩnh vực Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. Vision AI trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển theo thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Hợp lý hóa logistics với các model Ultralytics YOLO. AI thị giác hỗ trợ kiểm tra gói hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Tối ưu hóa việc giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. Thị giác máy tính AI nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong bán lẻ

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. Vision AI trong chăm sóc sức khỏe thúc đẩy hình ảnh y tế nhanh hơn, chẩn đoán thông minh hơn và giám sát bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý xếp hàng và hiểu biết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong lĩnh vực Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. Vision AI trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển theo thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Hợp lý hóa logistics với các model Ultralytics YOLO. AI thị giác hỗ trợ kiểm tra gói hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Tối ưu hóa việc giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. Thị giác máy tính AI nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong bán lẻ

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. Vision AI trong chăm sóc sức khỏe thúc đẩy hình ảnh y tế nhanh hơn, chẩn đoán thông minh hơn và giám sát bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý xếp hàng và hiểu biết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong lĩnh vực Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. Vision AI trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển theo thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Hợp lý hóa logistics với các model Ultralytics YOLO. AI thị giác hỗ trợ kiểm tra gói hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi thời gian thực.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning