深圳Yolo 视觉
深圳
立即加入
词汇表

人类反馈强化学习 (RLHF)

了解基于人类反馈的强化学习 (RLHF) 如何使 AI 与人类价值观对齐。探索其核心组件以及与 Ultralytics YOLO26 的集成。

基于人类反馈的强化学习 (RLHF) 是一种先进的机器学习技术,通过将直接人类输入整合到训练循环中来优化人工智能模型。与仅依赖静态标注数据集的标准 监督学习 不同,RLHF 引入了一种动态反馈机制,其中人类评估者对模型的输出进行排序或评分。这一过程使 AI 能够捕捉复杂、主观或细微的目标——例如“有用性”、“安全性”或“创造性”——这些目标难以用简单的数学损失函数来定义。RLHF 已成为现代 大型语言模型 (LLM) 和生成式 AI 发展的基石,确保强大的基础模型与人类价值观和用户意图有效对齐。

RLHF 的核心组成部分

RLHF 过程通常遵循一个三步流程,旨在弥合原始预测能力与人类对齐行为之间的差距。

  1. 监督微调 (SFT):该工作流程通常从预训练的基础模型开始。开发人员使用较小的、高质量的演示数据集(例如,由专家编写的问答对)进行初步微调。此步骤建立了一个基线策略,教授模型任务所需的一般格式和语气。
  2. 奖励模型训练:此阶段是RLHF的显著特征。人类标注员审查模型为相同输入生成的多个输出,并将其从最佳到最差进行排序。这种数据标注工作生成了一个偏好数据集。一个单独的神经网络,称为奖励模型,在此比较数据上进行训练,以预测反映人类判断的标量分数。Ultralytics Platform上提供的工具可以简化此类标注工作流程的管理。
  3. 强化学习优化:最后,原始模型在强化学习环境中充当AI代理。以奖励模型为指导,Proximal Policy Optimization (PPO) 等优化算法调整模型参数以最大化预期奖励。这一步使模型的策略与学习到的人类偏好对齐,鼓励有用和安全的行为,同时抑制有害或无意义的输出。

实际应用

RLHF 已被证明在部署需要高安全标准和对人类交互有细致理解的 AI 系统方面至关重要。

  • 对话式 AI 和聊天机器人:RLHF 最突出的应用是使聊天机器人对齐,使其有益、无害且诚实。通过惩罚有偏见、事实不准确或危险的输出,RLHF 有助于缓解大型语言模型 (LLM) 中的幻觉并降低算法偏见的风险。这确保了虚拟助手能够拒绝有害指令,同时对合法查询保持有用。
  • 机器人技术和物理控制:RLHF 的应用范围超越文本,延伸到机器人中的 AI,在机器人领域,为复杂的物理任务定义一个完美的奖励函数具有挑战性。例如,一个学习在拥挤仓库中导航的机器人可能会从人类监督者那里获得关于哪些轨迹是安全的,哪些导致了中断的反馈。这种反馈比仅仅基于目标完成的简单深度强化学习更有效地改进了机器人的控制策略。

RLHF 与标准强化学习对比

区分 RLHF 与传统的强化学习 (RL)有助于理解其特定效用。

  • 标准 RL:在传统设置中,奖励函数通常由环境硬编码。例如,在视频游戏中,环境提供明确的信号(赢 +1,输 -1)。智能体在此定义的马尔可夫决策过程 (MDP)中优化其行动。
  • RLHF:在许多现实世界场景中,例如撰写创意故事或礼貌驾驶,“成功”是主观的。RLHF 通过用从人类偏好中学习到的奖励模型替换硬编码的奖励来解决这个问题。这使得可以优化“质量”或“适当性”等抽象概念,而这些概念是无法明确编程的。

整合感知与反馈循环

在视觉应用中,RLHF对齐的智能体在行动前通常依赖于 计算机视觉 (CV) 来感知其环境状态。一个鲁棒的检测器,例如 YOLO26,作为感知层,提供结构化观测结果(例如,“在3米处detect到障碍物”),策略网络利用这些观测结果来选择行动。

以下 python 示例阐释了一个简化概念,其中 YOLO 模型提供环境状态。在一个完整的 RLHF 循环中,“奖励”信号将来自一个基于人类反馈训练的模型,该反馈是关于智能体基于此detect数据所做决策的。

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

通过将强大的感知模型与通过人类反馈优化的策略相结合,开发者可以构建不仅智能,而且严格遵循 AI 安全 原则的系统。对可扩展监督的持续研究,例如 Constitutional AI,持续推动该领域发展,旨在减少大规模人工标注的瓶颈,同时保持高模型性能。

让我们一起共建AI的未来!

开启您的机器学习未来之旅