术语表

宪法人工智能

了解《人工智能宪法》如何通过使模型符合预定义原则和人类价值观,来确保人工智能产出的道德性、安全性和公正性。

人工智能宪法(CAI)是 Anthropic 开发的一种方法,用于训练人工智能模型,尤其是大型语言模型(LLM),使其符合一套特定的规则或原则,即所谓的 "宪法"。CAI 的主要目标是让人工智能系统变得有益、无害和更可控,而不需要大量的人类反馈。人工智能不需要人类不断给有害的输出贴标签,而是学会根据其 "宪法 "中的指导原则来批评和修正自己的反应。这种方法有助于应对人工智能伦理方面的关键挑战,如防止产生有毒内容和减少算法偏见

人工智能宪法如何运作

CAI 培训过程通常包括两个主要阶段:

  1. 监督学习阶段:首先,提示基础模型生成回复。然后,要求同一模型根据宪法对自己的回复进行批判,并改写回复使其更符合宪法原则。这将创建一个新的数据集,其中包含经过改进的、与章程一致的示例。这种自我批判机制以宪法为指导,宪法可以是一个简单的规则列表,也可以从复杂的来源(如《联合国人权宣言》)中汲取营养。
  2. 强化学习阶段:然后使用强化学习(RL)对模型进行微调。在这一阶段,人工智能会生成成对的反应,而偏好模型(根据第一阶段的自我批判数据进行训练)会选择最符合章程的反应。这一过程教会人工智能从本质上偏好符合其核心原则的输出。

CAI 在现实世界中的一个重要例子就是在 Anthropic 的人工智能助手 Claude 中的应用。克劳德的体质指导它避免产生有害指令,拒绝参与非法活动,并以无毒的方式进行交流,同时保持乐于助人。另一个应用是自动内容管理,CAI 驱动的模型可用于根据预定义的道德准则识别和标记网上的仇恨言论或错误信息。

人工智能宪法与相关概念

必须将 CAI 与类似术语区分开来:

  • 从人类反馈中强化学习(RLHF)RLHF 依靠人类提供反馈并对人工智能生成的反应进行排序,这既耗时又难以扩展。CAI 以人工智能驱动的反馈回路取代了人类反馈回路,在此回路中,模型的构成对反馈起指导作用。这使得排列过程更具可扩展性和一致性。
  • 人工智能伦理这是一个广泛的领域,涉及创建负责任的人工智能的道德原则和技术问题。通过将明确的伦理规则直接嵌入模型的训练过程,宪法人工智能可被视为实施人工智能伦理的实用框架。

应用和未来潜力

目前,宪法人工智能主要应用于 LLM,以完成对话生成和文本摘要等任务。不过,其基本原理有可能扩展到其他人工智能领域,包括计算机视觉(CV)。例如

开发和完善有效的章程,同时确保人工智能在不同环境下忠实地遵守这些章程,仍是谷歌人工智能人工智能安全研究所等机构的活跃研究领域。Ultralytics HUB等工具为各种人工智能模型的训练和部署提供了便利,纳入类似于人工智能宪法的原则对于确保负责任地部署模型将变得越来越重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板