了解从人类反馈中强化学习 (RLHF) 如何通过使模型与人类价值观相一致来完善人工智能性能,从而实现更安全、更智能的人工智能。
从人类反馈中强化学习(RLHF)是一种先进的机器学习(ML)技术,旨在使人工智能模型,尤其是大型语言模型(LLM)和其他生成系统,更加贴近人类的意图和偏好。它改进了标准强化学习(RL)范式,将人类反馈直接纳入训练环路,引导人工智能(AI)学习有益、无害和诚实的行为,即使这些品质很难通过传统的奖励函数加以明确。这种方法对于开发更安全、更有用的人工智能系统至关重要,它超越了简单的准确度指标,实现了与人类价值观相一致的细微表现。
RLHF 通常涉及一个多步骤过程,综合人类判断来训练奖励模型,然后由奖励模型指导对主要人工智能模型进行微调:
在人工智能行为需要与人类价值观和期望紧密结合的应用中,RLHF 变得越来越重要:
OpenAI和 Anthropic等公司广泛使用 RLHF 来训练它们的大型语言模型(例如 ChatGPT和Claude)。通过让人类根据有用性和无害性对人工智能生成的不同回复进行排序,它们可以训练奖励模型,引导 LLM 生成更安全、更道德、更有用的文本。这有助于降低与有害或有偏见的输出相关的风险,并遵守负责任的人工智能开发原则。
在开发用于自动驾驶汽车的人工智能时,RLHF 可以将驾驶员或乘客对模拟驾驶行为(如变道时的舒适性、加速平稳性、模糊情况下的决策)的反馈纳入其中。这有助于人工智能学习不仅根据距离或速度限制等客观指标是安全的,而且让人类感觉舒适和直观的驾驶方式,从而提高用户的信任度和接受度。这是对传统计算机视觉任务的补充,如由以下模型执行的物体检测任务 Ultralytics YOLO.
尽管有其优势,但 RLHF 也面临着挑战:
未来的研究重点是更有效的反馈方法(例如使用人工智能辅助标记)、减少偏差、提高奖励模型的鲁棒性,以及将 RLHF 应用于更广泛的人工智能任务。Hugging Face 的 TRL 库等工具促进了 RLHF的实施。Ultralytics HUB等平台为管理数据集和训练模型提供了基础架构,未来有可能将人类反馈机制整合到计算机视觉等领域的专门配准任务中。有关此类平台入门的更多详情,请参阅Ultralytics HUB 快速入门指南。了解 RLHF 对于有效的机器学习运营 (MLOps)和确保人工智能的透明度越来越重要。