深圳Yolo 视觉
深圳
立即加入
词汇表

奖励建模

探索机器学习中的奖励建模。了解其如何利用人类反馈来协调人工智能代理Ultralytics 模型,实现更安全、更精准的性能表现。

奖励建模是一种机器学习技术,用于教导人工智能系统如何根据人类偏好来评估和优先处理自身行为。 在传统的强化学习环境中,AI代理通过最大化预先定义的数学刚性奖励函数(如电子游戏中的得分)来学习。然而对于复杂的现实任务——例如撰写礼貌邮件或安全穿越十字路口——"良好"行为往往具有主观性或微妙差异,手动编写完美的奖励函数几乎不可能实现。 奖励建模通过训练次级神经网络(奖励模型)作为人类判断的代理来解决此问题。该模型评估主AI的输出并赋予标量评分,动态引导主模型朝安全、有益且准确的行为方向发展。

奖励模型如何运作

构建奖励模型的流程高度依赖于收集高质量的人类反馈。

  • 数据标注与偏好设置: 人工标注员会收到提示信息及AI模型生成的多个响应选项。评估人员根据有用性、无害性及准确性等标准,将这些响应按优劣顺序进行排序。借助Ultralytics ,可无缝管理此类大规模标注工作流程。
  • 训练代理网络:基于人类比较数据集,训练出一个专用神经网络。通过优化过程,它学会预测人类偏好的输出结果,将动作或文本响应的嵌入映射为单一标量奖励值。您PyTorch 中深入了解神经网络架构的构建方法。
  • 策略优化:主模型通过奖励模型的连续反馈来优化其动作,通常采用近似策略优化(PPO)等算法。此步骤通过迭代过程,使模型的策略与学习到的人类意图保持一致。

奖励建模与RLHF

区分奖励建模与基于人类反馈的强化学习(RLHF)至关重要。尽管这两个术语常被并提,但它们并非同义词。RLHF是用于模型对齐的端到端综合管道,涵盖监督式微调、数据收集和策略更新。 奖励建模是RLHF管道中至关重要的特定组件,它充当桥梁,将离散的人类评分转化为连续的数学信号,使强化学习算法能够据此进行优化。

实际应用

奖励建模对于开发能够直接与人类及物理世界交互的现代人工智能系统至关重要。

实施基础奖励模型概念

以下Python 使用 torch 展示奖励模型的基础结构。在实践中,该网络学会为符合人类偏好的输出分配更高的标量分数。

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

要深入了解对齐机制如何影响开源基础模型,请探索关于语言模型与人类意图对齐的基础研究,并了解计算机视觉(CV)系统如何利用先进的反馈循环机制安全地与动态环境交互。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入