Reward Modeling
Khám phá reward modeling trong machine learning. Tìm hiểu cách kỹ thuật này sử dụng phản hồi của con người để căn chỉnh các AI agent và các model Ultralytics YOLO26 nhằm đạt được hiệu suất an toàn và chính xác hơn.
Reward modeling là một kỹ thuật machine learning được sử dụng để dạy các hệ thống trí tuệ nhân tạo cách đánh giá và ưu tiên hành vi của chính chúng dựa trên sở thích của con người. Trong các môi trường reinforcement learning truyền thống, một AI agent học bằng cách tối đa hóa một hàm phần thưởng cứng nhắc về mặt toán học, chẳng hạn như điểm số trong trò chơi điện tử. Tuy nhiên, đối với các tác vụ phức tạp trong thế giới thực nơi hành vi "tốt" mang tính chủ quan hoặc tinh tế—ví dụ như viết một email lịch sự hoặc điều hướng an toàn tại một ngã tư—việc tự viết một hàm phần thưởng hoàn hảo là gần như không thể. Reward modeling giải quyết vấn đề này bằng cách đào tạo một neural network phụ (reward model) đóng vai trò là đại diện cho đánh giá của con người. Model này đánh giá các kết quả đầu ra của AI chính và gán các điểm số vô hướng, hướng dẫn linh hoạt model chính hướng tới các hành vi an toàn, hữu ích và chính xác.
Link to this sectionCách thức hoạt động của Reward Modeling#
Quy trình xây dựng một reward model phụ thuộc rất nhiều vào việc thu thập phản hồi chất lượng cao từ con người.
- Data Labeling và Sở thích: Các annotator (người gán nhãn) được cung cấp các prompt cùng với nhiều phản hồi do một AI model tạo ra. Những người đánh giá sẽ xếp hạng các phản hồi này từ tốt nhất đến tệ nhất dựa trên các tiêu chí như tính hữu ích, tính an toàn và độ chính xác. Việc quản lý các luồng công việc gán nhãn quy mô lớn này có thể được xử lý liền mạch bằng cách sử dụng Ultralytics Platform.
- Đào tạo Proxy Network: Một neural network chuyên biệt được đào tạo trên tập dữ liệu so sánh từ con người này. Thông qua quá trình tối ưu hóa, nó học cách dự đoán phản hồi nào mà con người sẽ ưu tiên, ánh xạ các embeddings của một hành động hoặc phản hồi văn bản thành một giá trị phần thưởng vô hướng duy nhất. Bạn có thể đọc thêm về cách xây dựng kiến trúc neural network trong PyTorch API documentation.
- Tối ưu hóa chính sách (Policy Optimization): Model chính sử dụng phản hồi liên tục từ reward model để tinh chỉnh các hành động của mình, thường sử dụng các thuật toán như Proximal Policy Optimization (PPO). Bước này căn chỉnh chính sách của model một cách lặp đi lặp lại với ý định đã học được từ con người.
Link to this sectionReward Modeling so với RLHF#
Việc phân biệt reward modeling với Reinforcement Learning from Human Feedback (RLHF) là rất quan trọng. Mặc dù hai thuật ngữ này thường được thảo luận cùng nhau, chúng không đồng nghĩa. RLHF là quy trình tổng thể từ đầu đến cuối được sử dụng để căn chỉnh các model, bao gồm fine-tuning có giám sát, thu thập dữ liệu và cập nhật chính sách. Reward modeling là một thành phần cụ thể và quan trọng trong quy trình RLHF. Nó đóng vai trò là cầu nối chuyển đổi các xếp hạng rời rạc từ con người thành một tín hiệu toán học liên tục để thuật toán reinforcement learning có thể tối ưu hóa dựa trên đó.
Link to this sectionCác ứng dụng thực tế#
Reward modeling đóng vai trò then chốt trong việc phát triển các hệ thống AI hiện đại tương tác trực tiếp với con người và thế giới vật lý.
- Large Language Models (LLMs): Các trợ lý AI hội thoại dựa vào reward model để đảm bảo các câu trả lời của chúng không chỉ chính xác về mặt dữ liệu mà còn lịch sự, phù hợp và không chứa ngôn ngữ độc hại. Các tổ chức đang khám phá AI safety liên tục thúc đẩy reward modeling để xây dựng các hệ thống phản ánh helpful and harmless AI alignment.
- Autonomous Vehicles và Robotics: Trong tự động hóa vật lý, reward model giúp robot hiểu được các quy tắc lái xe phức tạp hoặc các chiến lược thao tác đối tượng. Một hệ thống nhận diện được hỗ trợ bởi Ultralytics YOLO26 có thể phát hiện người đi bộ và biển báo giao thông, trong khi reward model đánh giá quỹ đạo dự kiến của phương tiện, đảm bảo AI ưu tiên sự thoải mái và an toàn cho hành khách hơn là việc điều hướng điểm-đến-điểm thuần túy mang tính hung hăng.
Link to this sectionTriển khai khái niệm Reward Model cơ bản#
Ví dụ Python sau đây sử dụng torch để minh họa cấu trúc nền tảng của một reward model. Trong thực tế, mạng này học cách gán điểm số vô hướng cao hơn cho kết quả đầu ra phù hợp với sở thích của con người.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Để đi sâu hơn vào cách việc căn chỉnh tác động đến các model nền tảng mã nguồn mở, hãy khám phá các nghiên cứu nền tảng về việc căn chỉnh các model ngôn ngữ với ý định của con người và tìm hiểu cách các hệ thống computer vision (CV) tận dụng các vòng lặp phản hồi nâng cao để tương tác an toàn với các môi trường động.






