探索机器学习中的奖励建模。了解其如何利用人类反馈来协调人工智能代理Ultralytics 模型,实现更安全、更精准的性能表现。
奖励建模是一种机器学习技术,用于教导人工智能系统如何根据人类偏好来评估和优先处理自身行为。 在传统的强化学习环境中,AI代理通过最大化预先定义的数学刚性奖励函数(如电子游戏中的得分)来学习。然而对于复杂的现实任务——例如撰写礼貌邮件或安全穿越十字路口——"良好"行为往往具有主观性或微妙差异,手动编写完美的奖励函数几乎不可能实现。 奖励建模通过训练次级神经网络(奖励模型)作为人类判断的代理来解决此问题。该模型评估主AI的输出并赋予标量评分,动态引导主模型朝安全、有益且准确的行为方向发展。
构建奖励模型的流程高度依赖于收集高质量的人类反馈。
区分奖励建模与基于人类反馈的强化学习(RLHF)至关重要。尽管这两个术语常被并提,但它们并非同义词。RLHF是用于模型对齐的端到端综合管道,涵盖监督式微调、数据收集和策略更新。 奖励建模是RLHF管道中至关重要的特定组件,它充当桥梁,将离散的人类评分转化为连续的数学信号,使强化学习算法能够据此进行优化。
奖励建模对于开发能够直接与人类及物理世界交互的现代人工智能系统至关重要。
以下Python 使用 torch 展示奖励模型的基础结构。在实践中,该网络学会为符合人类偏好的输出分配更高的标量分数。
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
要深入了解对齐机制如何影响开源基础模型,请探索关于语言模型与人类意图对齐的基础研究,并了解计算机视觉(CV)系统如何利用先进的反馈循环机制安全地与动态环境交互。