Group Relative Policy Optimization (GRPO)
Khám phá Group Relative Policy Optimization (GRPO). Tìm hiểu cách thuật toán RL không dùng critic, tiết kiệm bộ nhớ này tăng cường khả năng lập luận của LLM và cắt giảm chi phí đào tạo.
Group Relative Policy Optimization (GRPO) là một thuật toán reinforcement learning tiết kiệm bộ nhớ, được phát triển để nâng cao khả năng suy luận của các Large Language Models (LLMs) và các hệ thống Artificial Intelligence (AI) rộng hơn. Được giới thiệu lần đầu trong bài báo DeepSeekMath 2024, GRPO cải thiện các phương pháp tối ưu hóa truyền thống bằng cách loại bỏ nhu cầu về một mạng lưới giá trị riêng biệt (critic model). Thay vào đó, nó chuẩn hóa phần thưởng của một nhóm phản hồi được tạo ra từ cùng một prompt. Bằng cách đánh giá các phản hồi tương đối so với các phản hồi cùng nhóm, GRPO giảm đáng kể chi phí tính toán đồng thời tăng hiệu suất cho các tác vụ suy luận phức tạp trong các kiến trúc Deep Learning (DL) hiện đại.
Sự khác biệt giữa GRPO và PPO
Mặc dù GRPO có nhiều điểm tương đồng với Proximal Policy Optimization (PPO)—một thuật toán tối ưu hóa tiêu chuẩn thường được sử dụng trong học tăng cường từ phản hồi của con người (RLHF)—cả hai khác biệt đáng kể về kiến trúc. PPO yêu cầu một mô hình "critic" thứ cấp chạy song song với mạng lưới chính sách (policy network) để ước tính giá trị của một trạng thái nhất định. Điều này làm tăng gần gấp đôi lượng bộ nhớ cần thiết trong giai đoạn huấn luyện.
Ngược lại, GRPO là một thuật toán không cần critic. Bằng cách lấy mẫu nhiều đầu ra cho một prompt duy nhất và chấm điểm chúng bằng hệ thống phần thưởng dựa trên quy tắc hoặc trình xác minh, GRPO tính toán lợi thế bằng cách chuẩn hóa điểm số trong nhóm cụ thể đó. Việc so sánh tương đối này đóng vai trò như một baseline, giúp tiết kiệm lượng lớn bộ nhớ mà lẽ ra một mạng lưới giá trị sẽ chiếm dụng và đẩy nhanh quá trình huấn luyện mô hình tổng thể.
Các ứng dụng thực tế của GRPO
GRPO đã thúc đẩy một số đột phá gần đây trong generative AI và xử lý ngôn ngữ tự nhiên. Hai ứng dụng đáng chú ý bao gồm:
- Mô hình suy luận toán học: Trong bản phát hành DeepSeek-R1 được trích dẫn rộng rãi và DeepSeekMath, GRPO đã được sử dụng để khuyến khích các mô hình phát triển chain-of-thought suy luận dài và tự xác minh, đạt hiệu suất tương đương với các mô hình độc quyền như o1 của OpenAI. Bằng cách thưởng cho các câu trả lời cuối cùng đúng và định dạng chính xác, thuật toán cho phép mô hình tự khám phá các chiến lược giải quyết vấn đề nâng cao mà không cần phải tinh chỉnh rộng rãi trên dữ liệu được con người chú giải.
- Tạo mã và logic tác tử: Đối với các mô hình viết mã hoặc cung cấp năng lượng cho các quy trình làm việc của tác tử tự chủ, việc đánh giá độ chính xác tuyệt đối là một thách thức. GRPO cho phép các mô hình học hỏi bằng cách thực thi các biến thể mã và chấm điểm tương đối dựa trên việc biên dịch thành công hoặc các trường hợp kiểm thử (test cases) đã vượt qua, giúp đẩy nhanh việc triển khai các trợ lý mã hóa AI có độ tin cậy cao.
Triển khai các khái niệm GRPO trong PyTorch
Về cốt lõi, GRPO tính toán lợi thế tương đối của các phản hồi bằng cách chuẩn hóa phần thưởng của chúng. Dưới đây là triển khai PyTorch cơ bản thể hiện quá trình chuẩn hóa này bằng cách sử dụng các phép toán tensor tiêu chuẩn:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesThúc đẩy AI với tối ưu hóa thông minh
Cũng giống như cách GRPO định nghĩa lại hiệu suất cho việc tạo văn bản, các kỹ thuật Machine Learning (ML) tiên tiến liên tục định hình lại thị giác máy tính. Tối ưu hóa kiến trúc và các hàm mất mát cho phép các nhà phát triển xây dựng các mô hình nhẹ hơn, nhanh hơn trên mọi lĩnh vực.
Đối với các tác vụ thị giác máy tính tiên tiến nhất, việc khám phá các tối ưu hóa đầu-cuối (end-to-end) cũng quan trọng không kém. Ví dụ, Ultralytics YOLO26 giới thiệu kiến trúc không cần NMS và các bộ tối ưu hóa lai lấy cảm hứng từ nghiên cứu LLM, cải thiện đáng kể việc triển khai trên thiết bị biên. Các nhà phát triển muốn tận dụng các quy trình làm việc thị giác máy tính hiệu quả có thể xây dựng, huấn luyện và triển khai mô hình một cách dễ dàng bằng cách sử dụng Nền tảng Ultralytics. Công cụ dựa trên đám mây này giúp đơn giản hóa việc quản lý tập dữ liệu phức tạp và tinh chỉnh siêu tham số cho các ứng dụng thị giác thời gian thực, mạnh mẽ.






