Process Reward Model (PRM)
Khám phá cách các Process Reward Models (PRM) cải thiện khả năng lập luận của AI. Tìm hiểu cách phản hồi ở cấp độ bước trong RLHF đảm bảo các lộ trình logic và an toàn cho LLM và Ultralytics YOLO26.
Việc đánh giá các mô hình trí tuệ nhân tạo phức tạp đòi hỏi nhiều hơn là chỉ kiểm tra xem câu trả lời cuối cùng có đúng hay không. Một kỹ thuật học tăng cường chuyên sâu sẽ gán các điểm số toán học cho từng bước trung gian mà AI thực hiện trong quá trình xử lý tác vụ, cung cấp phản hồi dày đặc ở cấp độ bước. Cách tiếp cận chi tiết này đảm bảo rằng mô hình không chỉ đi đến đích đúng mà còn tuân theo các lộ trình logic, an toàn và có thể xác minh để đạt được điều đó.
Link to this sectionProcess Reward Models so với Outcome Reward Models#
Trong bối cảnh rộng hơn của Reward Modeling, điều quan trọng là phải phân biệt giữa giám sát dựa trên quy trình và giám sát dựa trên kết quả. Các Outcome Reward Models (ORM) truyền thống cung cấp một phần thưởng duy nhất, thưa thớt ở ngay cuối quá trình tạo. Mặc dù ORM dễ huấn luyện hơn, chúng gặp phải một nhược điểm lớn trong các tác vụ phức tạp: chúng có thể vô tình khen thưởng các mô hình đưa ra câu trả lời đúng thông qua logic sai lệch hoặc ảo giác.
Một Process Reward Model (PRM) giải quyết vấn đề này bằng cách đánh giá toàn bộ quỹ đạo lập luận. Như đã được phổ biến bởi các nghiên cứu của OpenAI nền tảng trong các bài báo như Let's Verify Step by Step, một PRM áp dụng giám sát theo từng bước cho mỗi suy nghĩ hoặc hành động. Đây là thành phần quan trọng trong các pipeline Reinforcement Learning from Human Feedback (RLHF) tiên tiến, vì nó chủ động hướng dẫn tối ưu hóa chính sách bằng cách sử dụng các thuật toán như Proximal Policy Optimization (PPO).
Link to this sectionCác ứng dụng thực tế#
Các PRM đang thay đổi cách các Large Language Models (LLM) và các hệ thống tự hành hoạt động trong các môi trường có tính rủi ro cao:
- Lập luận Toán học: Bằng cách đánh giá các phương trình từng dòng một, PRM cho phép các mô hình sử dụng các thuật toán như Best-of-N (BoN) sampling hoặc Monte Carlo Tree Search (MCTS) để khám phá nhiều lộ trình giải pháp và chọn ra trình tự hợp lý nhất về mặt logic.
- Tạo mã: Khi tạo phần mềm, việc chỉ kiểm tra xem script cuối cùng có chạy được hay không là không đủ. PRM cung cấp sự giám sát quy trình, chấm điểm các hàm và các khối logic riêng lẻ để đảm bảo mã nguồn hiệu quả, an toàn và dễ bảo trì.
- Nghiên cứu Vận hành và Tác nhân Trực quan: Những tiến bộ gần đây trong năm 2025 và 2026 đã mở rộng PRM ra ngoài văn bản. Ví dụ, nghiên cứu vận hành hiện nay sử dụng PRM để xác thực các thuật toán lập lịch phức tạp. Tương tự, các AI agent trực quan được trang bị các công cụ computer vision mạnh mẽ như Ultralytics YOLO26 nhận được phần thưởng theo từng bước để điều hướng trong môi trường vật lý, thay vì chỉ nhận một phần thưởng duy nhất khi đến đích.
Link to this sectionTriển khai Phản hồi ở Cấp độ Bước#
Huấn luyện một PRM đòi hỏi phải quản lý các tập dữ liệu lớn, nơi mỗi bước phụ được đánh giá bởi con người hoặc các mô hình AI mạnh hơn. Việc quản lý các quy trình gán nhãn dữ liệu chuyên sâu này trở nên đơn giản hơn với các công cụ dựa trên đám mây như Ultralytics Platform, giúp hợp lý hóa việc tổ chức và triển khai dự án.
Trong quá trình suy luận hoặc tối ưu hóa mô hình, PRM tính toán tổn thất hoặc phần thưởng tích lũy dựa trên chuỗi các bước. Đoạn mã Python khái niệm sử dụng torch sau đây minh họa cách các phần thưởng cấp độ bước bị phạt nếu một bước trung gian thất bại, một phương pháp phổ biến được tìm thấy trong tài liệu PyTorch để chấm điểm trình tự:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updatesBằng cách đảm bảo rằng mọi bước trung gian đều phù hợp với hành vi mong đợi, các nhà phát triển có thể triển khai các hệ thống có độ tin cậy cao. Kết hợp giám sát ở cấp độ quy trình với việc tinh chỉnh siêu tham số liên tục cho phép các mô hình thế hệ tiếp theo thực sự suy luận thông qua các vấn đề một cách an toàn và hiệu quả.






