深圳Yolo 视觉
深圳
立即加入
词汇表

越狱 (AI)

了解AI越狱如何绕过安全防护机制,并学习如何降低风险。通过强大的防御和监控措施,保护Ultralytics 模型。

人工智能领域, “越狱”指的是 绕过人工智能模型中预设的伦理防护措施、安全过滤机制和运行限制的做法。 “越狱”一词最初用于指绕过智能手机等设备上的硬件限制,而在人工智能领域,AI越狱则涉及 设计特定的、通常具有欺骗性的输入,诱使模型生成受限内容、执行 未经授权的命令,或泄露敏感的系统提示。随着人工智能日益融入关键 基础设施,理解这些漏洞对于制定健全的 AI安全措施和防止滥用至关重要。

区分越狱与相关概念

虽然越狱与机器学习中的其他安全漏洞有相似之处,但重要的是 将其与相关术语区分开来:

  • 提示注入:这涉及将 恶意指令插入到合法的用户提示中,以劫持模型的预期输出。越狱是一个更广泛的 类别,其具体目标是完全绕过模型的核心安全协议。
  • AI 红队测试:这是一种经授权的、主动的 测试方法,安全专家会故意尝试破解系统,以便在部署前发现并修复 漏洞。
  • 对抗性攻击:这种攻击常用于 计算机视觉领域,其原理是通过微妙地改变 输入数据(例如在图像中添加不可见的噪声),迫使模型产生错误分类;而 越狱攻击则通常侧重于语言或逻辑层面的操纵。

人工智能越狱的实际案例

越狱现象的表现形式因人工智能系统的类型而异,既影响基于文本的架构,也影响 基于视觉的架构:

  1. 利用大型语言模型:攻击者通常会使用复杂的角色扮演场景或 假设性框架,迫使 大型语言模型忽略其 安全训练。例如,用户可能会提示人工智能扮演“一位正在撰写关于 黑客故事的虚构作家”,从而成功 诱使模型输出恶意代码或 危险活动的指令,而这些内容通常会被其过滤器拦截。Anthropic 最近的研究还 Anthropic 诸如 多样本越狱技术等高级方法,该技术 通过超载模型的上下文窗口来绕过限制。
  2. 多模态与视觉系统攻击:随着模型不断演进以同时处理文本和图像, 近期关于多模态越狱的研究表明,攻击者 可以在图像中嵌入恶意的文本指令。当视觉语言模型处理该图像时,隐藏的 文本会触发越狱。 在物理安防系统中,对抗性输入——例如衣物上带有特定图案的贴片—— 可作为视觉越狱手段,使佩戴者对自动化监控模型而言变得不可见。

降低人工智能模型中的越狱风险

要防范此类攻击,需要采取多层防御策略。开发人员遵循 OpenAI 安全指南以及诸如 NIST 人工智能风险管理框架等框架,以建立基础 安全防护。

为了防范视觉对抗攻击,工程师在训练过程中依赖全面的 数据增强技术。通过 有意引入噪声、模糊效果以及变化的光照条件,模型能够学会在面对经过篡改的输入时 仍保持高准确率。此外,利用 Ultralytics 上的工具 持续监控已部署的模型,有助于识别可能表明正在发生攻击的异常推理 模式,从而确保企业部署环境中的 数据安全

测试模型鲁棒性

为了确保您的计算机视觉模型能够抵御细微的输入篡改,您可以使用 Python 模拟基本的 对抗性机器学习场景。这有助于验证像 Ultralytics 这样的模型在面对噪声数据或略有改动的数据时, 能否继续保持可靠的性能。

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

通过积极检测漏洞并采取强有力的安全措施,开发人员能够成功掌握 如何缓解AI越狱问题,从而增强人们对现代AI系统的信任和信心。若想更深入地了解模型行为及 可解释性,请探索 可解释人工智能的原则。

让我们一起共建AI的未来!

开启您的机器学习未来之旅