Khám phá mô hình phần thưởng trong học máy. Tìm hiểu cách nó sử dụng phản hồi của con người để điều chỉnh các tác nhân AI và Ultralytics Các mẫu YOLO26 mang lại hiệu suất an toàn và chính xác hơn.
Mô hình phần thưởng là một kỹ thuật học máy được sử dụng để dạy các hệ thống trí tuệ nhân tạo cách đánh giá và ưu tiên hành vi của chính chúng dựa trên sở thích của con người. Trong môi trường học tăng cường truyền thống, một tác nhân AI học bằng cách tối đa hóa một hàm phần thưởng được xác định trước, cứng nhắc về mặt toán học, giống như điểm số trong một trò chơi điện tử. Tuy nhiên, đối với các nhiệm vụ phức tạp trong thế giới thực, nơi hành vi "tốt" mang tính chủ quan hoặc tinh tế - chẳng hạn như viết một email lịch sự hoặc điều hướng giao lộ an toàn - việc tự viết một hàm phần thưởng hoàn hảo gần như là không thể. Mô hình phần thưởng giải quyết vấn đề này bằng cách huấn luyện một mạng nơ-ron thứ cấp (mô hình phần thưởng) để hoạt động như một đại diện cho phán đoán của con người. Mô hình này đánh giá đầu ra của AI chính và gán điểm số vô hướng, hướng dẫn động thái của mô hình chính hướng tới các hành vi an toàn, hữu ích và chính xác.
Quy trình xây dựng mô hình khen thưởng phụ thuộc rất nhiều vào việc thu thập phản hồi chất lượng cao từ con người.
Điều quan trọng là phải phân biệt mô hình phần thưởng với Học tăng cường từ phản hồi của con người (RLHF) . Mặc dù hai thuật ngữ này thường được thảo luận cùng nhau, nhưng chúng không đồng nghĩa. RLHF là quy trình toàn diện từ đầu đến cuối được sử dụng để điều chỉnh các mô hình, bao gồm tinh chỉnh có giám sát, thu thập dữ liệu và cập nhật chính sách. Mô hình phần thưởng là một thành phần cụ thể, quan trọng trong quy trình RLHF. Nó đóng vai trò là cầu nối chuyển đổi các xếp hạng rời rạc của con người thành một tín hiệu toán học liên tục mà thuật toán học tăng cường có thể tối ưu hóa dựa trên đó.
Mô hình phần thưởng đóng vai trò quan trọng trong việc phát triển các hệ thống trí tuệ nhân tạo hiện đại tương tác trực tiếp với con người và thế giới vật chất.
Sau đây Python ví dụ sử dụng torch Để minh họa cấu trúc nền tảng của một mô hình phần thưởng. Trên thực tế, mạng lưới này học cách gán điểm số cao hơn cho đầu ra phù hợp với sở thích của con người.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Để hiểu sâu hơn về tác động của việc căn chỉnh đến các mô hình nền tảng mã nguồn mở, hãy khám phá các nghiên cứu nền tảng về việc căn chỉnh các mô hình ngôn ngữ với ý định của con người và tìm hiểu cách các hệ thống thị giác máy tính (CV) tận dụng các vòng phản hồi nâng cao để tương tác an toàn với môi trường năng động.