YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Mô hình khen thưởng theo quy trình (PRM)

Khám phá cách Mô hình Thưởng Quy trình (PRM) cải thiện khả năng suy luận của AI. Tìm hiểu cách phản hồi từng bước trong RLHF đảm bảo các đường dẫn logic, an toàn cho LLM và Ultralytics YOLO26.

Việc đánh giá các mô hình trí tuệ nhân tạo phức tạp đòi hỏi nhiều hơn là chỉ kiểm tra xem câu trả lời cuối cùng có đúng hay không. Một kỹ thuật học tăng cường chuyên biệt cao sẽ gán điểm số toán học cho mỗi bước trung gian mà AI thực hiện trong quá trình thực hiện nhiệm vụ, cung cấp phản hồi chi tiết ở cấp độ từng bước . Cách tiếp cận chi tiết này đảm bảo rằng mô hình không chỉ đến được đích đến chính xác mà còn tuân theo các con đường logic, an toàn và có thể kiểm chứng để đến đó.

Mô hình khen thưởng theo quy trình so với mô hình khen thưởng theo kết quả

Trong bối cảnh rộng hơn của Mô hình Thưởng , điều quan trọng là phải phân biệt giữa giám sát dựa trên quy trình và giám sát dựa trên kết quả. Các Mô hình Thưởng Kết quả Truyền thống (ORM) cung cấp một phần thưởng duy nhất, thưa thớt vào cuối mỗi thế hệ. Mặc dù ORM dễ huấn luyện hơn, nhưng chúng lại có một nhược điểm lớn trong các nhiệm vụ phức tạp: chúng có thể vô tình thưởng cho các mô hình đạt được câu trả lời đúng thông qua logic sai sót hoặc ảo giác .

Mô hình Thưởng Quy trình (PRM) giải quyết vấn đề này bằng cách đánh giá toàn bộ quá trình suy luận. Như đã được phổ biến bởi các nghiên cứu nền tảng của OpenAI trong các bài báo như "Let's Verify Step by Step" , PRM áp dụng sự giám sát từng bước cho mỗi suy nghĩ hoặc hành động. Đây là một thành phần quan trọng của các quy trình Học Tăng cường từ Phản hồi của Con người (RLHF) nâng cao, vì nó chủ động hướng dẫn tối ưu hóa chính sách bằng cách sử dụng các thuật toán như Tối ưu hóa Chính sách Gần đúng (PPO) .

Các Ứng dụng Thực tế

PRM đang làm thay đổi cách thức hoạt động của các Mô hình Ngôn ngữ Lớn (LLM) và các hệ thống tự trị trong môi trường có tính rủi ro cao:

  • Lý luận toán học : Bằng cách đánh giá các phương trình từng dòng một, PRM cho phép các mô hình sử dụng các thuật toán như lấy mẫu Best-of-N (BoN) hoặc tìm kiếm cây Monte Carlo (MCTS) để khám phá nhiều đường dẫn giải pháp và chọn chuỗi logic hợp lý nhất.
  • Tạo mã : Khi tạo phần mềm, việc chỉ kiểm tra xem kịch bản cuối cùng có chạy được hay không là chưa đủ. PRM cung cấp khả năng giám sát quy trình, chấm điểm từng chức năng và khối logic để đảm bảo mã hoạt động hiệu quả, an toàn và dễ bảo trì.
  • Nghiên cứu vận hành và các tác nhân thị giác : Những tiến bộ gần đây trong năm 2025 và 2026 đã mở rộng phạm vi ứng dụng của PRM (Residential Reward Management) vượt ra ngoài phạm vi văn bản. Ví dụ, nghiên cứu vận hành hiện nay sử dụng PRM để xác thực các thuật toán lập kế hoạch phức tạp. Tương tự, các tác nhân AI thị giác được trang bị công cụ thị giác máy tính mạnh mẽ như Ultralytics YOLO26 nhận được phần thưởng từng bước khi điều hướng trong môi trường vật lý, thay vì chỉ nhận được một phần thưởng duy nhất khi đến đích.

Thực hiện phản hồi theo từng bước

Việc đào tạo một PRM (Residential Research Manager) đòi hỏi phải quản lý các tập dữ liệu khổng lồ, trong đó mỗi bước nhỏ được đánh giá bởi con người hoặc các mô hình AI mạnh hơn. Việc quản lý các quy trình chú thích dữ liệu chuyên sâu này trở nên đơn giản hơn với các công cụ dựa trên đám mây như Nền tảng Ultralytics , giúp hợp lý hóa việc tổ chức và triển khai dự án.

Trong quá trình suy luận hoặc tối ưu hóa mô hìnhPRM tính toán khoản lỗ hoặc phần thưởng tích lũy dựa trên chuỗi các bước. Khái niệm sau đây Python đoạn mã sử dụng torch Ví dụ này minh họa cách phần thưởng ở từng bước bị giảm nếu một bước trung gian thất bại, một cách tiếp cận phổ biến được tìm thấy trong... PyTorch tài liệu để tính điểm theo trình tự:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

Bằng cách đảm bảo mọi bước trung gian đều phù hợp với hành vi mong đợi, các nhà phát triển có thể triển khai các hệ thống có độ tin cậy cao. Việc kết hợp giám sát ở cấp độ quy trình với việc điều chỉnh siêu tham số liên tục cho phép các mô hình thế hệ tiếp theo thực sự suy luận giải quyết vấn đề một cách an toàn và hiệu quả.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy