探索机器学习中的奖励建模。了解它如何利用人类反馈来对齐 AI 智能体和 Ultralytics YOLO26 模型,以实现更安全、更准确的性能。
奖励建模是一种机器学习技术,用于教导人工智能系统如何根据人类偏好评估和优先处理自身的行为。在传统的 强化学习 环境中,一个 AI 智能体 通过最大化预定义、数学上严格的奖励函数来学习,例如视频游戏中的得分。然而,对于“良好”行为是主观或细微差别的复杂现实世界任务——例如撰写一封礼貌的电子邮件或安全地通过交叉路口——手动编写一个完美的奖励函数几乎是不可能的。奖励建模通过训练一个辅助 神经网络(即奖励模型)来充当人类判断的代理,从而解决了这个问题。该模型评估主要 AI 的输出并分配标量分数,动态地引导主模型朝着安全、有用和准确的行为发展。
构建奖励模型的流程严重依赖于收集高质量的人类反馈。
区分奖励建模与 基于人类反馈的强化学习 (RLHF) 至关重要。尽管这两个术语经常一起讨论,但它们并非同义词。RLHF 是用于对齐模型的综合端到端流程,涵盖了监督微调、数据收集和策略更新。奖励建模是 RLHF 流程中一个特定且关键的 组成部分。它充当桥梁,将离散的人类排名转化为强化学习算法可以优化的连续数学信号。
奖励建模对于开发与人类和物理世界直接交互的现代 AI 系统至关重要。
以下 python 示例使用 torch 来演示奖励模型的基础结构。在实践中,该网络学习为符合人类偏好的输出分配更高的标量分数。
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
要深入了解对齐如何影响开源基础模型,探索关于将语言模型与人类意图对齐的基础研究,并了解 计算机视觉 (CV) 系统如何利用先进的反馈循环来安全地与动态环境交互。
开启您的机器学习未来之旅