Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình phần thưởng

Khám phá mô hình phần thưởng trong học máy. Tìm hiểu cách nó sử dụng phản hồi của con người để điều chỉnh các tác nhân AI và Ultralytics Các mẫu YOLO26 mang lại hiệu suất an toàn và chính xác hơn.

Mô hình phần thưởng là một kỹ thuật học máy được sử dụng để dạy các hệ thống trí tuệ nhân tạo cách đánh giá và ưu tiên hành vi của chính chúng dựa trên sở thích của con người. Trong môi trường học tăng cường truyền thống, một tác nhân AI học bằng cách tối đa hóa một hàm phần thưởng được xác định trước, cứng nhắc về mặt toán học, giống như điểm số trong một trò chơi điện tử. Tuy nhiên, đối với các nhiệm vụ phức tạp trong thế giới thực, nơi hành vi "tốt" mang tính chủ quan hoặc tinh tế - chẳng hạn như viết một email lịch sự hoặc điều hướng giao lộ an toàn - việc tự viết một hàm phần thưởng hoàn hảo gần như là không thể. Mô hình phần thưởng giải quyết vấn đề này bằng cách huấn luyện một mạng nơ-ron thứ cấp (mô hình phần thưởng) để hoạt động như một đại diện cho phán đoán của con người. Mô hình này đánh giá đầu ra của AI chính và gán điểm số vô hướng, hướng dẫn động thái của mô hình chính hướng tới các hành vi an toàn, hữu ích và chính xác.

Cách thức hoạt động của mô hình khen thưởng

Quy trình xây dựng mô hình khen thưởng phụ thuộc rất nhiều vào việc thu thập phản hồi chất lượng cao từ con người.

  • Ghi nhãn dữ liệu và tùy chọn: Người chú thích được cung cấp các gợi ý cùng với nhiều phản hồi được tạo ra bởi mô hình AI. Người đánh giá xếp hạng các phản hồi này từ tốt nhất đến tệ nhất dựa trên các tiêu chí như tính hữu ích, tính vô hại và độ chính xác. Việc quản lý các quy trình chú thích quy mô lớn này có thể được xử lý liền mạch bằng Nền tảng Ultralytics .
  • Huấn luyện mạng Proxy: Một mạng nơ-ron chuyên dụng được huấn luyện trên tập dữ liệu so sánh giữa người với người này. Thông qua một quy trình tối ưu hóa, nó học cách dự đoán đầu ra nào mà con người sẽ thích hơn, bằng cách ánh xạ các embedding của một hành động hoặc phản hồi văn bản đến một giá trị phần thưởng duy nhất. Bạn có thể đọc thêm về việc xây dựng kiến ​​trúc mạng nơ-ron trong tài liệu API của PyTorch .
  • Tối ưu hóa chính sách: Mô hình chính sử dụng phản hồi liên tục từ mô hình phần thưởng để tinh chỉnh các hành động của nó, thường sử dụng các thuật toán như Tối ưu hóa chính sách gần đúng (Proximal Policy Optimization - PPO) . Bước này lặp đi lặp lại việc điều chỉnh chính sách của mô hình sao cho phù hợp với ý định của con người đã được học hỏi.

Mô hình phần thưởng so với RLHF

Điều quan trọng là phải phân biệt mô hình phần thưởng với Học tăng cường từ phản hồi của con người (RLHF) . Mặc dù hai thuật ngữ này thường được thảo luận cùng nhau, nhưng chúng không đồng nghĩa. RLHF là quy trình toàn diện từ đầu đến cuối được sử dụng để điều chỉnh các mô hình, bao gồm tinh chỉnh có giám sát, thu thập dữ liệu và cập nhật chính sách. Mô hình phần thưởng là một thành phần cụ thể, quan trọng trong quy trình RLHF. Nó đóng vai trò là cầu nối chuyển đổi các xếp hạng rời rạc của con người thành một tín hiệu toán học liên tục mà thuật toán học tăng cường có thể tối ưu hóa dựa trên đó.

Các Ứng dụng Thực tế

Mô hình phần thưởng đóng vai trò quan trọng trong việc phát triển các hệ thống trí tuệ nhân tạo hiện đại tương tác trực tiếp với con người và thế giới vật chất.

  • Mô hình ngôn ngữ quy mô lớn (LLM) : Các trợ lý AI đàm thoại dựa vào mô hình phần thưởng để đảm bảo câu trả lời của chúng không chỉ chính xác về mặt thực tế mà còn lịch sự, phù hợp và không chứa ngôn ngữ độc hại. Các tổ chức nghiên cứu về an toàn AI liên tục phát triển mô hình phần thưởng để xây dựng các hệ thống phản ánh sự phù hợp hữu ích và vô hại của AI .
  • Xe tự hành và robot: Trong tự động hóa vật lý, mô hình phần thưởng giúp robot hiểu được các quy tắc lái xe phức tạp hoặc các chiến lược thao tác đối tượng. Một hệ thống nhận thức được hỗ trợ bởi Ultralytics YOLO26 có thể... detect Hệ thống sẽ chú ý đến người đi bộ và biển báo giao thông, đồng thời sử dụng mô hình khen thưởng để đánh giá quỹ đạo dự kiến ​​của xe, đảm bảo trí tuệ nhân tạo ưu tiên sự thoải mái và an toàn của hành khách hơn là việc chỉ đơn thuần di chuyển theo điểm đến điểm.

Áp dụng Khái niệm Mô hình Phần thưởng Cơ bản

Sau đây Python ví dụ sử dụng torch Để minh họa cấu trúc nền tảng của một mô hình phần thưởng. Trên thực tế, mạng lưới này học cách gán điểm số cao hơn cho đầu ra phù hợp với sở thích của con người.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Để hiểu sâu hơn về tác động của việc căn chỉnh đến các mô hình nền tảng mã nguồn mở, hãy khám phá các nghiên cứu nền tảng về việc căn chỉnh các mô hình ngôn ngữ với ý định của con người và tìm hiểu cách các hệ thống thị giác máy tính (CV) tận dụng các vòng phản hồi nâng cao để tương tác an toàn với môi trường năng động.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay