术语表

从人类反馈中强化学习(RLHF)

了解从人类反馈中强化学习 (RLHF) 如何通过使模型与人类价值观相一致来完善人工智能性能,从而实现更安全、更智能的人工智能。

从人类反馈中强化学习(RLHF)是一种先进的机器学习技术,旨在使人工智能(AI)模型与复杂、主观的人类价值观保持一致。RLHF 不依赖预定义的奖励函数,而是利用人类的偏好来训练 "奖励模型",从而指导人工智能的学习过程。这种方法对于 "良好 "表现的定义具有细微差别、主观性或很难用简单的指标来明确的任务尤其有效,例如生成安全、有益和连贯的对话。

RLHF 如何工作?

RLHF 流程通常包括三个关键步骤:

  1. 预训练语言模型:它以一个基础大型语言模型 (LLM)为起点,该模型已在大量文本数据语料库中进行了预训练。这个初始模型类似于基础模型,对语言有广泛的理解,但尚未针对特定风格或任务进行专门化。在这一步之后,还可以选择在高质量的数据集上进行有监督的微调
  2. 培训奖励模式:这是 RLHF 的核心。人类标注者在收到提示后,会看到由预先训练好的模型生成的多个输出结果。他们会根据有用性、真实性和安全性等标准,将这些输出结果从最佳到最差排序。然后,这些偏好数据将用于训练一个单独的奖励模型。奖励模型通过学习来预测人类会偏好哪些输出,从而有效地捕捉人类的判断。
  3. 利用强化学习进行微调:使用强化学习(RL)对预训练模型进行进一步微调。在这一阶段,模型(作为代理)产生输出,奖励模型为每个输出提供一个 "奖励 "分数。这一过程通常采用近端策略优化(PPO)等算法进行管理,鼓励人工智能模型调整其参数,以产生最大化奖励的响应,从而使其行为与学习到的人类偏好保持一致。OpenAIDeepMind等组织的开创性工作已经证明了其有效性。

实际应用

RLHF 对现代人工智能系统的发展起到了重要作用。

  • 高级聊天机器人:领先的人工智能聊天机器人(如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude)使用 RLHF 来确保其回复不仅准确,而且无害、合乎道德并符合用户意图。这有助于减少产生有偏见或有毒内容等问题,而这是大规模生成式人工智能面临的共同挑战。
  • 自动驾驶偏好:在开发用于自动驾驶汽车的人工智能时,RLHF 可以将驾驶员对模拟行为的反馈纳入其中,例如变道时的舒适度或模糊情况下的决策。这有助于人工智能学习人类感觉直观、值得信赖的驾驶方式,对Ultralytics YOLO 等模型执行的物体检测等传统计算机视觉任务起到补充作用。

RLHF 与相关概念的比较

将 RLHF 与其他人工智能学习技术区分开来非常重要。

  • 强化学习:标准强化学习要求开发人员手动设计奖励函数,以定义所需的行为。这对于分数明确的游戏来说很简单,但对于复杂的现实任务来说却很困难。RLHF 通过从人类反馈中学习奖励函数来解决这个问题,因此适用于没有明显成功指标的问题。
  • 监督学习: 监督学习在具有单一 "正确 "答案的数据集上训练模型。对于存在多个好答案的创造性或主观性任务,这种方法就不那么有效了。RLHF 使用偏好排序(例如 "A 比 B 好"),这使它能够驾驭模糊性并学习细微的行为。

挑战与未来方向

尽管 RLHF 功能强大,但它也面临着挑战。收集高质量的人工反馈成本高昂,而且如果标注者不具有多样性,还可能带来数据集偏差。此外,人工智能可能会发现 "玩弄 "奖励模型的方法,这种现象被称为 "奖励黑客"。

未来的研究正在探索更有效的反馈方法和替代方案,如宪法人工智能(Constitutional AI),它使用人工智能生成的原则来指导模型。实施RLHF需要多种机器学习领域的专业知识,但Hugging Face的TRL库等工具正在使它变得更容易使用。Ultralytics HUB等平台为管理数据集和训练模型提供了基础架构,这对于高级配准任务和强大的机器学习操作(MLOps)而言至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板