Reinforcement Learning from Human Feedback (RLHF)
了解从人类反馈中进行强化学习 (RLHF) 如何使 AI 与人类价值观保持一致。探索其核心组件以及与 Ultralytics YOLO26 的集成。
基于人类反馈的强化学习 (RLHF) 是一种先进的机器学习技术,它通过将人类的直接输入纳入训练循环来改进人工智能模型。与仅仅依赖静态标注数据集的标准监督学习不同,RLHF 引入了一种动态反馈机制,让人类评估者对模型的输出进行排名或评分。这一过程使 AI 能够捕捉复杂的、主观的或细微的目标,例如“有帮助”、“安全”或“创造力”——这些目标很难用简单的数学损失函数来定义。RLHF 已成为现代大语言模型 (LLM) 和生成式 AI 开发的基石,确保强大的基础模型能够有效地与人类价值观和用户意图保持一致。
Link to this sectionRLHF 的核心组件#
RLHF 流程通常遵循一个三步流水线,旨在弥合原始预测能力与符合人类行为之间的差距。
-
监督微调 (SFT): 工作流程通常从预训练的基础模型开始。开发人员使用较小的高质量演示数据集(例如由专家编写的问答对)执行初步的微调。此步骤建立了基准策略,教导模型任务所需的通用格式和语调。
-
奖励模型训练: 此阶段是 RLHF 的显著特征。人类标注员对同一输入下模型生成的多个输出进行审查,并按从好到差的顺序进行排名。这项数据标注工作会生成一个偏好数据集。一个单独的神经网络(称为奖励模型)会在此比较数据上进行训练,以预测反映人类判断的标量分数。Ultralytics Platform 上提供的工具可以简化此类标注工作流程的管理。
-
强化学习优化: 最后,原始模型在强化学习环境中充当人工智能体。以奖励模型为指导,近端策略优化 (PPO) 等优化算法会调整模型的参数以最大化预期奖励。此步骤将模型的策略与习得的人类偏好对齐,鼓励有帮助和安全的行为,同时抑制有毒或无意义的输出。
Link to this section实际应用#
事实证明,在部署需要高安全标准和对人类交互有细微理解的 AI 系统时,RLHF 至关重要。
- 对话式 AI 和聊天机器人: RLHF 最突出的应用是使聊天机器人保持乐于助人、无害且诚实。通过惩罚那些带有偏见、事实错误或危险的输出,RLHF 有助于减轻LLM 中的幻觉并降低算法偏见的风险。这确保了虚拟助手在拒绝有害指令的同时,仍能为合法查询提供有效帮助。
- 机器人技术和物理控制: RLHF 的应用范围超出了文本领域,延伸到了机器人领域的 AI,在这些领域,为复杂的物理任务定义完美的奖励函数充满挑战。例如,一个学习在拥挤仓库中导航的机器人,可能会收到人类主管关于哪些轨迹是安全的、哪些轨迹导致了干扰的反馈。与仅基于目标完成情况的简单深度强化学习相比,这种反馈能更有效地改进机器人的控制策略。
Link to this sectionRLHF 与标准强化学习的对比#
为了理解其特定用途,区分 RLHF 与传统的强化学习 (RL) 是很有帮助的。
- 标准 RL: 在传统设置中,奖励函数通常由环境硬编码。例如,在电子游戏中,环境会提供一个明确的信号(赢加 1 分,输减 1 分)。智能体在这个定义的马尔可夫决策过程 (MDP) 中优化其行为。
- RLHF: 在许多现实场景中,例如撰写创意故事或礼貌驾驶,“成功”是主观的。RLHF 通过将硬编码的奖励替换为源自人类偏好的学习奖励模型来解决这个问题。这允许优化诸如“质量”或“适当性”等抽象概念,而这些概念是无法明确编程的。
Link to this section将感知与反馈循环相结合#
在视觉应用中,经过 RLHF 对齐的智能体通常依赖计算机视觉 (CV) 在行动前感知环境状态。一个强大的检测器(如 YOLO26)充当感知层,提供结构化的观察结果(例如“在 3 米处检测到障碍物”),策略网络利用这些信息来选择动作。
以下 Python 示例说明了一个简化的概念,其中 YOLO 模型提供环境状态。在一个完整的 RLHF 循环中,“奖励”信号将来自一个经过训练的模型,该模型根据有关智能体基于此检测数据所做决策的人类反馈进行训练。
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.通过将强大的感知模型与通过人类反馈改进的策略相结合,开发人员可以构建不仅智能,而且严格符合 AI 安全原则的系统。关于可扩展监督的持续研究,例如宪法 AI (Constitutional AI),正在不断推动这一领域的发展,旨在减少大规模人工标注的瓶颈,同时保持模型的高性能。






