Khám phá cách Mô hình Thưởng Quy trình (PRM) cải thiện khả năng suy luận của AI. Tìm hiểu cách phản hồi từng bước trong RLHF đảm bảo các đường dẫn logic, an toàn cho LLM và Ultralytics YOLO26.
Việc đánh giá các mô hình trí tuệ nhân tạo phức tạp đòi hỏi nhiều hơn là chỉ kiểm tra xem câu trả lời cuối cùng có đúng hay không. Một kỹ thuật học tăng cường chuyên biệt cao sẽ gán điểm số toán học cho mỗi bước trung gian mà AI thực hiện trong quá trình thực hiện nhiệm vụ, cung cấp phản hồi chi tiết ở cấp độ từng bước . Cách tiếp cận chi tiết này đảm bảo rằng mô hình không chỉ đến được đích đến chính xác mà còn tuân theo các con đường logic, an toàn và có thể kiểm chứng để đến đó.
Trong bối cảnh rộng hơn của Mô hình Thưởng , điều quan trọng là phải phân biệt giữa giám sát dựa trên quy trình và giám sát dựa trên kết quả. Các Mô hình Thưởng Kết quả Truyền thống (ORM) cung cấp một phần thưởng duy nhất, thưa thớt vào cuối mỗi thế hệ. Mặc dù ORM dễ huấn luyện hơn, nhưng chúng lại có một nhược điểm lớn trong các nhiệm vụ phức tạp: chúng có thể vô tình thưởng cho các mô hình đạt được câu trả lời đúng thông qua logic sai sót hoặc ảo giác .
Mô hình Thưởng Quy trình (PRM) giải quyết vấn đề này bằng cách đánh giá toàn bộ quá trình suy luận. Như đã được phổ biến bởi các nghiên cứu nền tảng của OpenAI trong các bài báo như "Let's Verify Step by Step" , PRM áp dụng sự giám sát từng bước cho mỗi suy nghĩ hoặc hành động. Đây là một thành phần quan trọng của các quy trình Học Tăng cường từ Phản hồi của Con người (RLHF) nâng cao, vì nó chủ động hướng dẫn tối ưu hóa chính sách bằng cách sử dụng các thuật toán như Tối ưu hóa Chính sách Gần đúng (PPO) .
PRM đang làm thay đổi cách thức hoạt động của các Mô hình Ngôn ngữ Lớn (LLM) và các hệ thống tự trị trong môi trường có tính rủi ro cao:
Việc đào tạo một PRM (Residential Research Manager) đòi hỏi phải quản lý các tập dữ liệu khổng lồ, trong đó mỗi bước nhỏ được đánh giá bởi con người hoặc các mô hình AI mạnh hơn. Việc quản lý các quy trình chú thích dữ liệu chuyên sâu này trở nên đơn giản hơn với các công cụ dựa trên đám mây như Nền tảng Ultralytics , giúp hợp lý hóa việc tổ chức và triển khai dự án.
Trong quá trình suy luận hoặc
tối ưu hóa mô hìnhPRM tính toán khoản lỗ hoặc phần thưởng tích lũy dựa trên chuỗi các bước. Khái niệm sau đây Python đoạn mã sử dụng
torch Ví dụ này minh họa cách phần thưởng ở từng bước bị giảm nếu một bước trung gian thất bại, một cách tiếp cận phổ biến được tìm thấy trong... PyTorch tài liệu để tính điểm theo trình tự:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
Bằng cách đảm bảo mọi bước trung gian đều phù hợp với hành vi mong đợi, các nhà phát triển có thể triển khai các hệ thống có độ tin cậy cao. Việc kết hợp giám sát ở cấp độ quy trình với việc điều chỉnh siêu tham số liên tục cho phép các mô hình thế hệ tiếp theo thực sự suy luận giải quyết vấn đề một cách an toàn và hiệu quả.
Bắt đầu hành trình của bạn với tương lai của học máy