术语表

从人类反馈中强化学习(RLHF)

了解从人类反馈中强化学习 (RLHF) 如何通过使模型与人类价值观相一致来完善人工智能性能,从而实现更安全、更智能的人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

从人类反馈中强化学习(RLHF)是一种先进的机器学习(ML)技术,旨在使人工智能模型,尤其是大型语言模型(LLM)和其他生成系统,更加贴近人类的意图和偏好。它改进了标准强化学习(RL)范式,将人类反馈直接纳入训练环路,引导人工智能(AI)学习有益、无害和诚实的行为,即使这些品质很难通过传统的奖励函数加以明确。这种方法对于开发更安全、更有用的人工智能系统至关重要,它超越了简单的准确度指标,实现了与人类价值观相一致的细微表现。

RLHF 如何运作

RLHF 通常涉及一个多步骤过程,综合人类判断来训练奖励模型,然后由奖励模型指导对主要人工智能模型进行微调

  1. 预训练模型:使用标准方法(通常是监督学习)在大型数据集上训练初始模型(如 LLM)。该模型可以生成相关内容,但可能缺乏特定的对齐方式。
  2. 收集人类反馈:预训练模型可针对各种提示生成多种输出结果。人工评估人员会根据质量、有用性、无害性或其他所需的标准对这些输出进行排序。这种比较反馈通常比绝对分数更可靠,也更易于人类提供。这些数据构成了偏好数据集
  3. 训练奖励模型:在人类偏好数据的基础上训练一个单独的模型,即奖励模型。它的目标是预测人类会偏好哪种输出,本质上是学习模仿人类的判断,并分配一个标量奖励信号。
  4. 利用强化学习进行微调:然后,利用强化学习(特别是近端策略优化 (PPO) 等算法)对原始人工智能模型进行微调。在这一阶段,奖励模型提供奖励信号。人工智能模型会探索不同的输出结果,而那些受到奖励模型青睐的输出结果会得到强化,从而引导模型的行为趋向于人类的偏好。Sutton & Barto 的简介等资料详细介绍了 RL 的基本概念。

这种迭代循环有助于人工智能模型学习难以用编程定义的复杂、主观的目标,增强人工智能伦理等方面的能力,减少算法偏差

RLHF 与相关概念的比较

  • 标准强化学习(RL):传统的强化学习依赖于基于环境状态和行动的显式编程奖励函数。RLHF 以基于人类偏好的学习奖励模型来取代或补充这种方法,从而能够捕捉到更细微或主观的目标。探索深度强化学习,了解更先进的 RL 技术。
  • 宪法人工智能(CAI)AnthropicCAI 是一种替代性排列技术。RLHF 使用人类反馈来训练有益和无害的奖励模型,而 CAI 则使用由预定义 "宪法"(一套规则或原则)指导的人工智能反馈来监督无害模型,通常仍使用人类反馈来训练有益模型。在Anthropic研究中了解更多有关 CAI 的信息。

RLHF 的主要应用

在人工智能行为需要与人类价值观和期望紧密结合的应用中,RLHF 变得越来越重要:

  • 改进聊天机器人和虚拟助理:让人工智能对话更有吸引力、更有帮助、更不易产生有害、有偏见或无意义的回复。这需要对GPT-4 等模型进行微调。
  • 内容生成:完善文本摘要文本生成等任务的模型,以生成更符合所需风格或质量标准的输出结果。
  • 个性化推荐系统调整推荐引擎,推荐用户真正感兴趣或有用的内容,而不是简单的点击率。
  • 开发更安全的自动驾驶汽车将人类对驾驶风格的偏好(如平稳、自信)与安全规则相结合。

真实案例

聊天机器人对齐

OpenAIAnthropic等公司广泛使用 RLHF 来训练它们的大型语言模型(例如 ChatGPTClaude)。通过让人类根据有用性和无害性对人工智能生成的不同回复进行排序,它们可以训练奖励模型,引导 LLM 生成更安全、更道德、更有用的文本。这有助于降低与有害或有偏见的输出相关的风险,并遵守负责任的人工智能开发原则。

自动驾驶偏好

在开发用于自动驾驶汽车的人工智能时,RLHF 可以将驾驶员或乘客对模拟驾驶行为(如变道时的舒适性、加速平稳性、模糊情况下的决策)的反馈纳入其中。这有助于人工智能学习不仅根据距离或速度限制等客观指标是安全的,而且让人类感觉舒适和直观的驾驶方式,从而提高用户的信任度和接受度。这是对传统计算机视觉任务的补充,如由以下模型执行的物体检测任务 Ultralytics YOLO.

RLHF 的优势

  • 改进对齐:直接纳入人类偏好,使人工智能系统更符合用户的意图和价值观。
  • 处理主观性:适用于主观性强、难以用简单指标界定质量的任务(如创造性、礼貌、安全)。
  • 增强安全性:通过学习人类对不良输出的判断,帮助降低人工智能生成有害、不道德或有偏见内容的可能性。
  • 适应性:允许根据目标反馈针对特定领域或用户群对模型进行微调。

挑战与未来方向

尽管有其优势,但 RLHF 也面临着挑战:

  • 可扩展性和成本:收集高质量的人工反馈既昂贵又耗时。
  • 反馈质量和偏差:人类的偏好可能不一致、有偏差或缺乏专业知识,从而可能导致奖励模型中的数据集偏差。确保反馈的多样性和代表性至关重要。
  • 奖励黑客:人工智能可能会想方设法将奖励模型预测的奖励最大化,而实际上并没有满足人类的预期偏好(称为奖励黑客或规范博弈)。
  • 复杂性:实施完整的 RLHF 管道需要具备多个人工智能领域的专业知识,包括监督学习强化学习和管理大规模模型训练

未来的研究重点是更有效的反馈方法(例如使用人工智能辅助标记)、减少偏差、提高奖励模型的鲁棒性,以及将 RLHF 应用于更广泛的人工智能任务。Hugging Face 的 TRL 库等工具促进了 RLHF实施。Ultralytics HUB等平台为管理数据集和训练模型提供了基础架构,未来有可能将人类反馈机制整合到计算机视觉等领域的专门配准任务中。有关此类平台入门的更多详情,请参阅Ultralytics HUB 快速入门指南。了解 RLHF 对于有效的机器学习运营 (MLOps)和确保人工智能的透明度越来越重要。

阅读全部