术语表

宪法人工智能

了解《人工智能宪法》如何通过使模型符合预定义原则和人类价值观,来确保人工智能产出的道德性、安全性和公正性。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能宪法是一种旨在使人工智能(AI)模型,特别是大型语言模型(LLM),与人类价值观和道德原则相一致的方法。这种方法不完全依赖人类的直接反馈来指导行为,而是使用一套预定义的规则或原则--"宪法"--来帮助人工智能在训练过程中评估和修正自己的反应。其目标是创建有益、无害和诚实的人工智能系统,降低产生有偏见、有毒或其他不良输出的风险。这项技术由 Anthropic的研究人员首创的,旨在使人工智能排列更具可扩展性,减少对大量人工监督的依赖。

人工智能宪法如何运作

宪法人工智能的核心理念包括两个阶段的训练过程:

  1. 监督学习阶段:起初,一个标准的预训练语言模型会被设计成各种情景,以诱发潜在的有害或不良反应。该模型会生成几种反应。然后由另一个人工智能模型根据章程中概述的原则对这些反应进行批判。人工智能对自己的反应进行批判,找出反应可能违反原则的原因(如未经同意或有害)。然后根据这些自我批判的回应对模型进行微调,学习生成更符合宪法的输出。这一阶段使用的是监督学习技术。
  2. 强化学习阶段:在监督阶段之后,使用强化学习(RL)进一步完善模型。在这一阶段,人工智能生成响应,人工智能模型(使用章程进行训练)对这些响应进行评估,并根据这些响应遵守章程原则的程度提供奖励信号。这一过程通常被称为 "人工智能反馈强化学习"(RLAIF),它能优化模型,使其持续产生与宪法一致的输出,从根本上教会人工智能偏好与宪法一致的行为。

这种以明确原则为指导的自我修正机制,使《宪法》人工智能与人类反馈强化学习(RLHF)等方法区别开来,后者在很大程度上依赖于人类标注者对模型输出进行评级。

关键概念

  • 宪法:这不是一份字面意义上的法律文件,而是一套指导人工智能行为的明确道德原则或规则。这些原则可以来自各种来源,如普遍宣言(如《联合国人权宣言》)、服务条款或针对特定应用定制的道德准则。其有效性在很大程度上取决于这些原则的质量和全面性。
  • 人工智能自我批评和修订:人工智能模型学会对照章程评估自身输出并产生修订的一个基本方面。这种内部反馈循环减少了对人类持续干预的需求。
  • 人工智能对齐:人工智能宪法是人工智能协调领域的一项技术,旨在确保人工智能系统的目标和行为符合人类的意图和价值观。它解决了人们对人工智能安全性和意外后果可能性的担忧。
  • 可扩展性:与 RLHF 相比,这种方法的目标是通过使用基于构成的人工智能来实现反馈过程的自动化,从而提高可扩展性,因为 RLHF 可能是劳动密集型的,并可能引入人为偏见(算法偏见)。

真实案例

  1. Anthropic的克劳德模型:最突出的例子就是Anthropic的克劳德 LLM 家族。Anthropic 专门开发了人工智能宪法,以训练这些模型成为 "乐于助人、无害和诚实的人"。所使用的宪法包括阻止生成有毒、歧视性或非法内容的原则,这些原则部分基于《联合国人权宣言》和其他道德来源。更多信息,请阅读他们关于集体宪法人工智能的论文。
  2. 人工智能内容管理系统:人工智能宪法原则可用于训练内容审核平台的模型。人工智能可以使用定义有害内容(如仇恨言论、错误信息)的宪法来评估用户生成的文本或图片,而不是仅仅依赖于人工审核员或僵化的关键词过滤器,从而实现与平台政策和人工智能道德准则相一致的、更加细致入微和一致的审核。

人工智能制宪与相关术语

  • 从人类反馈中强化学习(RLHF)虽然两者都旨在调整人工智能,但 RLHF 使用由人类生成的反馈,对模型输出进行评级。宪法式人工智能主要使用基于预定义宪法的人工智能生成的反馈,使其具有更强的可扩展性和一致性,但其质量在很大程度上取决于宪法本身。
  • 人工智能伦理负责任的人工智能人工智能伦理是研究人工智能道德影响的广泛领域。负责任的人工智能包括安全、合乎道德地开发和部署人工智能系统的原则和实践(如公平性、透明度(XAI)、问责制、数据隐私)。宪法人工智能是在模型训练过程中使用的一种特定技术方法,旨在落实某些道德原则,促进负责任的人工智能开发。

应用和未来潜力

目前,宪法人工智能主要应用于LLM,以完成对话生成和文本摘要等任务。不过,其基本原理有可能扩展到其他人工智能领域,包括计算机视觉(CV)。例如

开发和完善有效的章程,同时确保人工智能在不同环境下忠实地遵守这些章程,仍然是Google 人工智能人工智能安全研究所等机构的活跃研究领域。Ultralytics HUB等工具为各种人工智能模型的训练和部署提供了便利,纳入类似于人工智能宪法的原则对于确保负责任的部署将变得越来越重要。

阅读全部