敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

宪法式人工智能旨在使 AI 模型与人类价值观保持一致

Abirami Vina

4 分钟阅读

2025年4月8日

了解宪法式人工智能如何帮助模型遵循道德规范,做出更安全的决策,并在语言和计算机视觉系统中支持公平性。

人工智能 (AI) 正迅速成为我们日常生活中不可或缺的一部分。它正被整合到医疗保健、招聘、金融和公共安全等领域使用的工具中。 随着这些系统的扩展,对其伦理和可靠性的担忧也日益增加。

例如,有时在构建 AI 系统时,如果没有考虑到公平性或安全性,可能会产生有偏差或不可靠的结果。 这是因为许多模型仍然没有明确的方式来反映和符合人类价值观。

为了应对这些挑战,研究人员现在正在探索一种称为 宪法式人工智能 的方法。 简而言之,它将一套书面原则引入到模型的训练过程中。 这些原则有助于模型判断自己的行为,减少对人类反馈的依赖,并使响应更安全、更易于理解。

到目前为止,这种方法主要用于 大型语言模型 (LLM)。 但是,相同的结构可以帮助指导 计算机视觉 系统在分析视觉数据时做出合乎道德的决策。 

在本文中,我们将探讨宪法式人工智能的工作原理,查看实际示例,并讨论其在计算机视觉系统中的潜在应用。

__wf_reserved_inherit
图 1. 宪法式人工智能的特征。作者提供的图片。

什么是宪法式人工智能?

宪法式人工智能是一种 模型训练 方法,它通过提供一套明确的道德规范来指导 AI 模型的行为。 这些规则就像行为准则。 它不是依赖模型来推断什么是可接受的,而是遵循一套书面原则,这些原则在 训练 期间塑造其响应。

这个概念是由 Anthropic 提出的,Anthropic 是一家专注于 AI 安全的研究公司,该公司开发了 Claude LLM 系列,作为一种使 AI 系统在其决策中更具自我监督性的方法。 

该模型不是仅仅依赖于人类的反馈,而是学会根据预定义的原则集来批判和改进自己的响应。 这种方法类似于法律系统,法官在做出判决之前会参考宪法。

在这种情况下,模型既是裁判又是学生,使用同一套规则来审查和改进自身的行为。这个过程加强了 AI 模型对齐,并支持安全、负责任的 AI 系统的开发。

宪法 AI 是如何运作的?

宪法 AI 的目标是教导 AI 模型如何通过遵循一套清晰的书面规则来做出安全和公平的决策。以下是此过程的简单分解:

  • 定义宪法:创建模型应遵循的道德原则书面清单。宪法概述了 AI 应该避免什么,以及应该反映什么价值观。

  • 使用监督式示例进行训练:向模型展示遵循宪法的示例回复。这些示例帮助 AI 理解可接受的行为是什么样的。

  • 识别和应用模式:随着时间的推移,模型开始识别这些模式。它学会了在回答新问题或处理新情况时应用相同的价值观。

  • 评论和改进输出:模型审查自己的响应,并根据宪法对其进行调整。这个自我审查阶段有助于它在不只依赖人类反馈的情况下进行改进。

  • 产生对齐且更安全的响应:模型从一致的规则中学习,这有助于减少偏差并提高在实际使用中的可靠性。这种方法使其更符合人类价值观,也更容易管理。
__wf_reserved_inherit
图 2. 使用宪法 AI 训练模型的概述。

伦理 AI 设计的核心原则

为了让 AI 模型遵循伦理规则,首先需要明确定义这些规则。对于宪法 AI 而言,这些规则基于一套核心原则。 

例如,以下是构成有效 AI 宪法基础的四个原则:

  • 透明度应该很容易理解模型是如何得出答案的。如果响应基于事实、估计或模式,它将对用户透明。这可以建立信任,并帮助人们判断他们是否可以依赖模型的输出。

  • 平等:响应应在不同的用户之间保持一致。模型不应根据一个人的姓名、背景或位置来更改其输出。平等有助于防止偏见并促进平等待遇。

  • 问责制:应该有一种方法可以追溯模型的训练方式以及影响其行为的因素。当出现问题时,团队应该能够识别原因并加以改进。这支持透明度和长期问责制。

  • 安全:模型需要避免产生可能造成伤害的内容。如果请求导致有风险或不安全的输出,系统应识别出这一点并停止。这可以保护用户和系统的完整性。

大型语言模型中宪法 AI 的示例

宪法 AI 已经从理论走向实践,现在正慢慢地应用于与数百万用户互动的大型模型中。两个最常见的例子是来自 OpenAI 和 Anthropic 的 LLM。 

虽然这两个组织都采取了不同的方法来创建更符合伦理的 AI 系统,但他们有一个共同的想法:教导模型遵循一套书面的指导原则。让我们仔细看看这些例子。

OpenAI 的宪法 AI 方法

OpenAI 引入了一个名为 Model Spec 的文档,作为其 ChatGPT 模型训练过程的一部分。该文档就像一部宪法。它概述了模型在其响应中应追求的目标,包括乐于助人、诚实和安全等价值观。它还定义了什么算作有害或误导性输出。 

该框架已用于通过根据响应与规则的匹配程度对其进行评级来微调 OpenAI 的模型。随着时间的推移,这有助于塑造 ChatGPT,使其产生更少的有害输出,并更好地与用户实际需求保持一致。 

__wf_reserved_inherit
图 3. ChatGPT 使用 OpenAI 的 Model Spec 进行响应的示例。

Anthropic 的伦理 AI 模型

Anthropic 的模型 Claude 所遵循的宪法基于来自《世界人权宣言》等来源的伦理原则、Apple 服务条款等平台指南以及其他 AI 实验室的研究。这些原则有助于确保 Claude 的响应是安全的、公平的,并且与重要的人类价值观保持一致。

Claude 还使用了来自 AI 反馈的强化学习 (RLAIF),它会根据这些伦理准则审查和调整自己的响应,而不是依赖于 人工反馈。这个过程使 Claude 能够随着时间的推移不断改进,使其更具可扩展性,并且更擅长提供有帮助、合乎道德且无害的答案,即使在棘手的情况下也是如此。

__wf_reserved_inherit
图 4。了解 Anthropic 的宪法 AI 方法。

将宪法 AI 应用于计算机视觉

由于宪法 AI 正在积极影响语言模型的行为方式,因此自然而然地引出了一个问题:类似的方法能否帮助基于视觉的系统更公平、更安全地做出响应? 

虽然 计算机视觉模型 处理的是图像而不是文本,但对伦理指导的需求同样重要。例如,公平性和偏差是需要考虑的关键因素,因为需要对这些系统进行训练,以平等地对待每个人,并在分析视觉数据时避免有害或不公平的结果。

__wf_reserved_inherit
图 5. 与计算机视觉相关的伦理挑战。图片由作者提供。

目前,宪法 AI 方法在计算机视觉中的应用仍在探索中,并且处于早期阶段,该领域的研究正在进行中。

例如,Meta 最近推出了 CLUE,这是一个将类似宪法的推理应用于图像安全任务的框架。它将广泛的安全规则转化为多模态 AI(处理和理解多种数据类型的 AI 系统)可以遵循的精确步骤。这有助于系统更清晰地推理并减少有害结果。 

此外,CLUE 通过简化复杂的规则,使图像安全判断更加高效,从而使 AI 模型能够快速准确地采取行动,而无需大量人工输入。通过使用一套指导原则,CLUE 使图像审核系统更具可扩展性,同时确保高质量的结果。

主要要点

随着 AI 系统承担越来越多的责任,重点正在从它们能做什么转变为它们应该做什么。这种转变是关键,因为这些系统被用于直接影响人们生活的领域,例如医疗保健、执法和教育。 

为了确保 AI 系统以适当和合乎道德的方式行事,它们需要一个坚实和一致的基础。这个基础应优先考虑公平、安全和信任。 

书面宪法可以在训练期间提供该基础,指导系统的决策过程。它还可以为开发人员提供一个框架,用于在部署后审查和调整系统的行为,确保其继续与旨在维护的价值观保持一致,并使其更容易适应新出现的挑战。

立即加入我们不断壮大的社区!通过浏览我们的 GitHub 存储库,更深入地了解 AI。想要构建您自己的计算机视觉项目吗?请浏览我们的许可选项。访问我们的解决方案页面,了解 医疗保健中的计算机视觉 如何提高效率,并探索 AI 在制造业中的影响

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板