深圳Yolo 视觉
深圳
立即加入
词汇表

宪法人工智能

了解宪法人工智能如何通过使模型与预定义的原则和人类价值观保持一致,来确保符合道德、安全且公正的人工智能输出。

宪法人工智能(CAI)是一种培训方法,旨在调整 人工智能(AI)系统 与人类价值观相一致。 训练过程。与严重依赖人类对每项特定输出进行反馈的传统方法不同,CAI 使模型能够 模型能够根据乐于助人、诚实和无害等原则来批评和修正自己的行为。这种 这种方法通过以下方式满足人工智能安全日益增长的需求 使调整过程自动化,从而有可能训练出遵守道德准则的有能力的助手 无需大量人力监督。通过明确的 开发人员可以减少 算法偏差,防止生成有毒或不安全的内容。 有毒或不安全的内容。

宪法AI如何运作

宪法人工智能的工作流程通常包括两个不同的阶段,超越了标准的 监督学习。这两个阶段允许 模型在宪法的指导下从自身的反馈中学习,而不是仅仅从外部的人类标签中学习。

  1. 带自我批评的监督学习:该模型根据提示生成响应,然后 自己的输出结果。如果回复违反了规则--例如,粗鲁或偏颇--模型就会对其进行修改。 偏颇,模型就会对其进行修改。这就为模型训练创建了一个高质量的合规示例数据集。 模型训练
  2. 从人工智能反馈中强化学习(RLAIF):在这一阶段,模型或单独的反馈 模型对成双成对的回应进行评估,并选择更符合章程的回应。这些偏好数据 用来训练一个偏好模型,然后用它来指导主模型的 强化学习。这实际上 用人工智能生成的偏好标签取代人类偏好标签,从而简化微调过程。 微调过程。

人工智能制宪 vs. 人权联络论坛

将 CAI 与 从人类反馈中强化学习(RLHF),因为它们代表了不同的调整策略。

  • RLHF:依靠人类注释者对模型输出进行人工评级。虽然有效,但这一过程 在数据标注过程中,人类工作者可能会接触到令人不安或痛苦的内容。 数据标注
  • 宪法人工智能:使用 RLAIF 自动执行反馈环路。通过明确定义 明确定义 "宪法",开发人员就能获得更高的 人工智能行为的透明度,因为驱动决策的规则 因为驱动决策的规则是以明确的文本形式写成的,而不是从成千上万个单独的人工 评分。这不仅提高了可扩展性,还保护了人类 注释者。

实际应用

虽然宪法人工智能起源于 大型语言模型(LLM)的背景下发展起来的。 等组织开发的 Anthropic等组织开发的大型语言模型(LLM)的背景下,其原则正被越来越多地 用于更广泛的机器学习任务,包括 计算机视觉 (CV)

  • 道德聊天机器人:CAI 广泛用于训练对话代理,使其拒绝产生 仇恨言论、非法行为指令或带有政治偏见的内容。这可以确保 生成式人工智能工具在公共 部署。
  • 安全关键型视觉系统:自动驾驶汽车中 "宪法 "方法可以为决策定义分级规则。例如,规定 "人类安全高于交通效率 "的规则可以在分析复杂道路场景时为模型提供指导、 确保物体检测结果 以安全为优先。

在推理中实施策略检查

虽然完整的人工智能宪法训练涉及复杂的反馈回路,但开发人员可以在训练过程中应用 "宪法检查 "的概念。 在 推理过程中应用 "宪法检查 "概念,根据安全 策略过滤输出。下面的示例演示了使用 YOLO11来detect 物体,并应用 假设的安全规则来过滤低置信度的检测,从而确保高可靠性。

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

人工智能对齐的未来

随着模型向 人工通用智能(AGI)的发展,像宪法人工智能(Constitutional AI这样稳健的对齐策略的重要性与日俱增。这些方法对于 这些方法对于遵守新兴标准至关重要,如 NIST 人工智能安全研究所等机构制定的新兴标准。

Ultralytics 正在积极研究如何将安全和对齐功能集成到模型生命周期中。即将推出的 即将推出的YOLO26架构(目前正在研发中)旨在将先进的可解释性功能纳入 与这些安全目标相一致的高级可解释性功能,确保 模型部署安全高效 跨所有行业。此外,统一的Ultralytics 平台将提供管理数据治理和监控模型行为的工具,从而促进创建人工智能。 此外,统一的 Ultralytics 平台还将提供管理数据治理和监控模型行为的工具,促进创建负责任的人工智能系统。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入