深圳Yolo 视觉
深圳
立即加入
词汇表

人类反馈强化学习 (RLHF)

了解人类反馈强化学习 (RLHF) 如何通过使模型与人类价值观保持一致来优化 AI 性能,从而实现更安全、更智能的 AI。

从人类反馈中强化学习(RLHF)是机器学习(ML)中的一个复杂框架。 机器学习(ML)中的一个复杂框架,它将 人工智能(AI)系统 与人类的价值观、偏好和意图相一致。与传统的 监督学习不同,监督学习训练模型 不同的是,RLHF 引入了一个动态反馈回路,由人类评估者对模型输出进行排序。这些 排名数据用于训练 "奖励模型",该模型随后会指导人工智能生成更有用、安全和准确的响应、 安全和准确的响应。事实证明,这种技术对于开发现代 大型语言模型(LLM)生成式人工智能的发展至关重要,它能确保强大的基础 模型按照用户的期望行事,而不仅仅是通过统计预测下一个单词或像素。

RLHF 工作流程

通过 RLHF 调整模型的过程一般分为三个步骤,在原始预测能力和细致的人机交互之间架起了一座桥梁。 预测能力与细致入微的人机交互之间的差距。

  1. 监督微调 (SFT):这一过程通常从预先训练好的 基础模型。开发人员使用 微调。 开发人员在较小的高质量数据集(如对话或演示)上进行微调,向模型传授所需任务的基本格式。
  2. 奖励模式培训:这是 RLHF 的核心。人类注释者对模型针对同一输入 模型针对相同输入生成的多个输出结果,并将它们从最佳到最差排序。这一 数据标注过程创建了一个偏好数据集。 偏好。一个独立的神经网络 即奖励模型,根据这些比较数据进行训练,以预测一个标量奖励分数,从而模仿人类的判断。
  3. 强化学习优化:原始模型实际上成为 强化学习环境中的人工智能代理 强化学习环境中的人工智能代理。以 奖励模型作为指导,算法如 近端策略优化(PPO) 等算法会调整代理参数,使预期奖励最大化。这一步从根本上改变了模型的策略,以 例如礼貌地拒绝有害的询问,使其与学习到的人类偏好相一致。

RLHF 与标准强化学习对比

虽然这两种方法都依赖于最大限度地提高回报,但回报的来源却使它们大相径庭。

  • 标准强化学习(RL):在传统的强化学习中,奖励函数通常是由环境硬编码或数学定义的。 在传统的强化学习(RL)中,奖励函数通常是由环境硬编码或数学定义的。例如,在一盘棋中,环境提供了一个明确的 信号:赢棋+1,输棋-1。代理通过试错在这个定义的 马尔可夫决策过程(Markov Decision Process,MDP)
  • RLHF:在现实世界的许多任务中,例如写总结或礼貌地驾驶汽车,"成功 "的数学公式是无法明确定义的。 成功 "的数学公式是无法明确定义的。RLHF 解决了这个问题,它将硬编码的 奖励模型。这样就可以优化抽象概念 如 "乐于助人 "或 "安全 "等难以直接编程的抽象概念。

实际应用

RLHF 改变了人工智能系统与世界互动的方式,尤其是在需要高安全标准和细微理解的领域。 和细致入微的理解。

  • 对话式人工智能和聊天机器人:RLHF 最突出的用途是将聊天机器人调整为 有益和无害。通过惩罚有毒、有偏见或与事实不符的输出,RLHF 有助于减轻 幻觉,减少算法偏差 算法偏见。它能确保助手 拒绝危险指令,同时对合法查询保持有用性。
  • 机器人与自主代理:除了文本,RLHF 还应用于 机器人技术,教授机器人完成复杂的物理任务。例如 例如,学习抓取易碎物品的机械臂可能会从人类监督员那里获得反馈,了解哪些抓取尝试是安全的,哪些是明显失败的。 哪些尝试是安全的,哪些是明显失败的。这种反馈比简单的 深度强化学习 仅仅基于任务完成情况的深度强化学习相比,这种反馈能更有效地完善控制策略。类似的方法可以帮助 自动驾驶汽车学习驾驶 人类乘客感觉自然的驾驶行为。

将感知与 RLHF 相结合

在视觉应用中,RLHF 代理通常依靠 计算机视觉(CV)来感知环境状态 其环境状态。稳健的检测器,如 YOLO11可以 可以充当系统的 "眼睛",提供结构化的观察结果(例如,"发现左侧有行人"),策略网络据此选择行动。 左侧发现行人"),策略网络可利用这些观察结果选择行动。

下面的示例说明了一个简化的概念,即YOLO 模型为一个代理提供环境状态。 代理的环境状态。在一个完整的 RLHF 循环中,"奖励 "将由一个根据人类偏好训练的模型来决定。 来决定。

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

通过将功能强大的感知模型与通过人类反馈调整的策略相结合,开发人员可以构建出这样的系统 不仅具有智能性,还能严格检查人工智能的安全性。 人工智能的安全性。对可扩展监督的研究,如 人工智能宪法 等可扩展监督方面的研究将继续推动这一领域的发展,旨在减少对大规模人工注释的严重依赖。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入