Reward Modeling

探索机器学习中的奖励建模。了解它如何利用人类反馈来对齐 AI 智能体和 Ultralytics YOLO26 模型，以实现更安全、更精准的性能。

奖励建模是一种机器学习技术，用于教导人工智能系统如何根据人类偏好来评估和优先处理自身的行为。在传统的 reinforcement learning 环境中，AI agent 通过最大化预定义的、数学上刚性的奖励函数（例如视频游戏中的分数）来进行学习。然而，对于那些“好”的行为具有主观性或细微差别的复杂现实世界任务（例如写一封礼貌的电子邮件或安全地通过十字路口）而言，手动编写一个完美的奖励函数几乎是不可能的。奖励建模通过训练一个辅助的 neural network（即奖励模型）来充当人类判断的代理，从而解决了这个问题。该模型评估主要 AI 的输出并分配标量分数，动态引导主模型向安全、有益且准确的行为发展。

Link to this section奖励建模的工作原理#

构建奖励模型的流程很大程度上依赖于收集高质量的人类反馈。

Data Labeling 与偏好： 人类标注员会收到提示词以及由 AI 模型生成的多个响应。评估人员根据有用性、无害性和准确性等标准，将这些响应从最好到最差进行排名。利用 Ultralytics Platform 可以无缝处理这些大规模的标注工作流。
训练代理网络： 一个专门的神经网络会在这个人类比较数据集上进行训练。通过优化过程，它学会预测人类会偏好哪种输出，将动作或文本响应的 embeddings 映射到一个单一的标量奖励值。你可以在 PyTorch API documentation 中阅读有关构建神经网络架构的更多信息。
策略优化： 主模型利用来自奖励模型的持续反馈来改进其动作，通常使用 Proximal Policy Optimization (PPO) 等算法。这一步以迭代方式将模型的策略与习得的人类意图对齐。

Link to this section奖励建模与 RLHF 的区别#

区分奖励建模与 Reinforcement Learning from Human Feedback (RLHF) 非常重要。虽然这两个术语经常被放在一起讨论，但它们并不是同义词。RLHF 是用于对齐模型的综合性端到端流程，包含监督微调、数据收集和策略更新。奖励建模是 RLHF 流程中一个具体且关键的组件。它充当了连接桥梁，将离散的人类排名转换为强化学习算法可以优化的连续数学信号。

Link to this section实际应用#

奖励建模对于开发与人类及物理世界直接交互的现代 AI 系统至关重要。

Large Language Models (LLMs)： 对话式 AI 助手依赖奖励模型来确保其回答不仅事实正确，而且礼貌、相关且没有毒性语言。探索 AI safety 的组织正在不断推进奖励建模，以构建反映 helpful and harmless AI alignment 的系统。
Autonomous Vehicles 与机器人： 在物理自动化中，奖励模型帮助机器人理解复杂的驾驶礼仪或物体操纵策略。由 Ultralytics YOLO26 驱动的感知系统可能会检测行人和交通标志，而奖励模型则会评估车辆的预定轨迹，确保 AI 在优先级上将乘客的舒适度和安全性置于纯粹激进的点对点导航之上。

Link to this section实现基本的奖励模型概念#

以下 Python 示例使用 torch 来演示奖励模型的基础结构。在实际应用中，该网络会学习为符合人类偏好的输出分配更高的标量分数。

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

想要深入了解对齐如何影响开源基础模型，请探索关于使语言模型与人类意图对齐的基础研究，并了解 computer vision (CV) 系统如何利用高级反馈循环与动态环境进行安全交互。