Group Relative Policy Optimization (GRPO)

Khám phá Tối ưu hóa chính sách tương đối theo nhóm (GRPO). Tìm hiểu cách thuật toán RL không cần phê bình, tiết kiệm bộ nhớ này nâng cao khả năng suy luận của LLM và cắt giảm chi phí huấn luyện.

Group Relative Policy Optimization (GRPO) là một thuật toán reinforcement learning tiết kiệm bộ nhớ được phát triển để tăng cường khả năng suy luận của các Large Language Models (LLMs) và các hệ thống Artificial Intelligence (AI) rộng hơn. Lần đầu tiên được giới thiệu trong bài báo DeepSeekMath năm 2024, GRPO cải tiến các phương pháp tối ưu hóa truyền thống bằng cách loại bỏ nhu cầu về một mạng giá trị (mô hình critic) riêng biệt. Thay vào đó, nó chuẩn hóa phần thưởng của một nhóm các phản hồi được tạo ra từ cùng một prompt. Bằng cách đánh giá các phản hồi dựa trên mối tương quan với các phản hồi khác trong cùng nhóm, GRPO giảm đáng kể chi phí tính toán đồng thời tăng hiệu suất cho các tác vụ suy luận phức tạp trong các kiến trúc Deep Learning (DL) hiện đại.

Link to this sectionGRPO khác PPO như thế nào#

Mặc dù GRPO có nhiều điểm tương đồng với Proximal Policy Optimization (PPO)—một optimization algorithm tiêu chuẩn thường được sử dụng trong học tăng cường từ phản hồi của con người (RLHF)—cả hai khác biệt đáng kể về kiến trúc. PPO yêu cầu một mô hình "critic" phụ chạy song song với mạng policy chính để ước tính giá trị của một trạng thái nhất định. Điều này làm tăng gần gấp đôi bộ nhớ cần thiết trong training phase.

Ngược lại, GRPO là một thuật toán không cần critic. Bằng cách lấy mẫu nhiều đầu ra cho một prompt duy nhất và chấm điểm chúng bằng rule-based reward system hoặc bộ kiểm chứng, GRPO tính toán lợi thế bằng cách chuẩn hóa điểm số trong nhóm cụ thể đó. Sự so sánh tương đối này đóng vai trò như một baseline, tiết kiệm lượng lớn bộ nhớ vốn dĩ sẽ bị chiếm dụng bởi mạng giá trị và tăng tốc model training tổng thể.

Link to this sectionCác ứng dụng thực tế của GRPO#

GRPO đã thúc đẩy một số đột phá gần đây trong generative AI và natural language processing. Hai ứng dụng đáng chú ý bao gồm:

Các mô hình suy luận toán học: Trong bản phát hành DeepSeek-R1 được trích dẫn rộng rãi và DeepSeekMath, GRPO đã được sử dụng để khuyến khích các mô hình phát triển chain-of-thought suy luận dài và tự kiểm chứng, đạt hiệu suất ngang bằng với các mô hình độc quyền như OpenAI's o1. Bằng cách thưởng cho các câu trả lời cuối cùng chính xác và định dạng đúng, thuật toán này cho phép mô hình tự khám phá các chiến lược giải quyết vấn đề nâng cao mà không cần fine-tuning chuyên sâu trên dữ liệu được con người gán nhãn.
Tạo mã và logic đại lý: Đối với các mô hình viết code hoặc vận hành các agentic workflows tự trị, việc đánh giá độ chính xác tuyệt đối là một thách thức. GRPO cho phép các mô hình học hỏi bằng cách thực thi các biến thể mã và chấm điểm chúng một cách tương đối dựa trên sự thành công khi biên dịch hoặc các test case vượt qua, từ đó đẩy nhanh việc triển khai các trợ lý lập trình AI có độ tin cậy cao.

Link to this sectionTriển khai các khái niệm GRPO trong PyTorch#

Về cốt lõi, GRPO tính toán lợi thế tương đối của các phản hồi bằng cách chuẩn hóa phần thưởng của chúng. Dưới đây là bản triển khai PyTorch cơ bản minh họa việc chuẩn hóa này bằng cách sử dụng các tensor operations tiêu chuẩn:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionThúc đẩy AI với tối ưu hóa thông minh#

Cũng giống như cách GRPO định nghĩa lại hiệu suất cho việc tạo văn bản, các kỹ thuật Machine Learning (ML) tiên tiến liên tục định hình lại visual perception. Việc tối ưu hóa các kiến trúc và loss functions cho phép các nhà phát triển xây dựng các mô hình nhẹ hơn, nhanh hơn trên mọi lĩnh vực.

Đối với các computer vision tasks hiện đại, việc khám phá các tối ưu hóa end-to-end cũng quan trọng không kém. Ví dụ, Ultralytics YOLO26 giới thiệu một kiến trúc không cần NMS nguyên bản và các hybrid optimizers lấy cảm hứng từ nghiên cứu LLM, giúp cải thiện đáng kể khả năng triển khai tại biên. Các nhà phát triển muốn tận dụng các workflow computer vision hiệu quả có thể xây dựng, huấn luyện và triển khai các mô hình một cách dễ dàng bằng cách sử dụng Ultralytics Platform. Công cụ dựa trên đám mây này đơn giản hóa việc quản lý tập dữ liệu phức tạp và hyperparameter tuning cho các ứng dụng tầm nhìn thời gian thực, mạnh mẽ.

Group Relative Policy Optimization (GRPO)

Link to this sectionGRPO khác PPO như thế nào#

Link to this sectionCác ứng dụng thực tế của GRPO#

Link to this sectionTriển khai các khái niệm GRPO trong PyTorch#

Link to this sectionThúc đẩy AI với tối ưu hóa thông minh#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!