人类反馈强化学习 (RLHF)
了解人类反馈强化学习 (RLHF) 如何通过使模型与人类价值观保持一致来优化 AI 性能,从而实现更安全、更智能的 AI。
从人类反馈中进行强化学习 (RLHF) 是一种先进的 机器学习 技术,旨在使 人工智能 (AI) 模型与复杂、主观的人类价值观保持一致。RLHF 不依赖于预定义的奖励函数,而是使用人类偏好来训练“奖励模型”,从而指导 AI 的学习过程。这种方法对于“良好”性能的定义细致、主观或难以用简单指标指定(例如生成安全、有帮助且连贯的对话)的任务尤其有效。
RLHF 的工作原理是什么?
RLHF 过程通常涉及三个关键步骤:
- 预训练语言模型: 它从一个基础的大型语言模型 (LLM)开始,该模型已在大量的文本数据语料库上进行了预训练。 这个初始模型类似于基础模型,对语言有广泛的理解,但尚未针对特定风格或任务进行专门化。 此步骤可以选择性地在高质量数据集上进行监督微调。
- 训练奖励模型: 这是 RLHF 的核心。人工标注员会看到预训练模型针对提示生成的多个输出。他们根据诸如有用性、真实性和安全性等标准对这些输出进行最佳到最差的排序。然后,此偏好数据用于训练单独的奖励模型。奖励模型学习预测人类会更喜欢哪个输出,从而有效地捕捉人类的判断。
- 使用强化学习进行微调: 预训练模型使用强化学习 (RL)进一步微调。在此阶段,模型(充当代理)生成输出,奖励模型为每个输出提供“奖励”分数。此过程通常使用近端策略优化 (PPO) 等算法进行管理,鼓励 AI 模型调整其参数以生成最大化奖励的响应,从而使其行为与学习到的人类偏好保持一致。 OpenAI和DeepMind等组织的开创性工作已经证明了其有效性。
实际应用
RLHF 在现代 AI 系统的开发中发挥了重要作用。
- 高级聊天机器人: 像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 这样的领先 AI 聊天机器人使用 RLHF 来确保他们的回复不仅准确,而且无害、合乎道德,并且符合用户意图。 这有助于缓解生成有偏见或有害内容等问题,这是大规模生成式 AI 中常见的挑战。
- 自动驾驶偏好: 在开发用于自动驾驶汽车的人工智能时,RLHF 可以整合驾驶员对模拟行为的反馈,例如在车道变换期间的舒适度或在模棱两可情况下的决策。这有助于 AI 学习对人类来说感觉直观和值得信赖的驾驶风格,从而补充了传统的计算机视觉任务,例如 Ultralytics YOLO 等模型执行的目标检测。
RLHF 与相关概念
区分 RLHF 和其他 AI 学习技术非常重要。
- 强化学习: 标准 RL 要求开发人员手动设计奖励函数来定义所需的行为。这对于具有明确分数的游戏来说很简单,但对于复杂的现实世界任务来说却很困难。RLHF 通过从人类反馈中学习奖励函数来解决这个问题,使其适用于没有明显成功指标的问题。
- 监督学习:监督学习使用带有单一“正确”答案的数据集训练模型。这种方法对于存在多个好答案的创造性或主观性任务效果较差。RLHF 使用偏好排序(例如,“A 优于 B”)使其能够应对模糊性并学习细微的行为。
挑战和未来方向
尽管RLHF功能强大,但也面临着挑战。收集高质量的人工反馈成本高昂,并且如果标注者不具有多样性,则可能会引入数据集偏差。此外,AI可能会发现“玩弄”奖励模型的方法,这种现象被称为奖励黑客。
未来的研究将探索更有效的反馈方法以及诸如宪法 AI之类的替代方案,后者使用 AI 生成的原则来指导模型。实施 RLHF 需要多个机器学习领域的专业知识,但诸如 Hugging Face 的 TRL 库之类的工具正在使其更容易实现。诸如 Ultralytics HUB 等平台为管理数据集和训练模型提供基础设施,这些是高级对齐任务和强大的机器学习运维 (MLOps)的基础。