词汇表

越狱 (AI)

了解AI越狱如何绕过安全防护机制，并学习如何降低风险。通过强大的防御和监控措施，保护Ultralytics 模型。

在人工智能领域， “越狱”指的是绕过人工智能模型中预设的伦理防护措施、安全过滤机制和运行限制的做法。 “越狱”一词最初用于指绕过智能手机等设备上的硬件限制，而在人工智能领域，AI越狱则涉及设计特定的、通常具有欺骗性的输入，诱使模型生成受限内容、执行未经授权的命令，或泄露敏感的系统提示。随着人工智能日益融入关键基础设施，理解这些漏洞对于制定健全的 AI安全措施和防止滥用至关重要。

区分越狱与相关概念

虽然越狱与机器学习中的其他安全漏洞有相似之处，但重要的是将其与相关术语区分开来：

提示注入：这涉及将恶意指令插入到合法的用户提示中，以劫持模型的预期输出。越狱是一个更广泛的类别，其具体目标是完全绕过模型的核心安全协议。
AI 红队测试：这是一种经授权的、主动的测试方法，安全专家会故意尝试破解系统，以便在部署前发现并修复漏洞。
对抗性攻击：这种攻击常用于计算机视觉领域，其原理是通过微妙地改变输入数据（例如在图像中添加不可见的噪声），迫使模型产生错误分类；而越狱攻击则通常侧重于语言或逻辑层面的操纵。

人工智能越狱的实际案例

越狱现象的表现形式因人工智能系统的类型而异，既影响基于文本的架构，也影响基于视觉的架构：

利用大型语言模型：攻击者通常会使用复杂的角色扮演场景或假设性框架，迫使大型语言模型忽略其安全训练。例如，用户可能会提示人工智能扮演“一位正在撰写关于黑客故事的虚构作家”，从而成功诱使模型输出恶意代码或危险活动的指令，而这些内容通常会被其过滤器拦截。Anthropic 最近的研究还 Anthropic 诸如多样本越狱技术等高级方法，该技术通过超载模型的上下文窗口来绕过限制。
多模态与视觉系统攻击：随着模型不断演进以同时处理文本和图像，近期关于多模态越狱的研究表明，攻击者可以在图像中嵌入恶意的文本指令。当视觉语言模型处理该图像时，隐藏的文本会触发越狱。在物理安防系统中，对抗性输入——例如衣物上带有特定图案的贴片—— 可作为视觉越狱手段，使佩戴者对自动化监控模型而言变得不可见。

降低人工智能模型中的越狱风险

要防范此类攻击，需要采取多层防御策略。开发人员遵循 OpenAI 安全指南以及诸如 NIST 人工智能风险管理框架等框架，以建立基础安全防护。

为了防范视觉对抗攻击，工程师在训练过程中依赖全面的数据增强技术。通过有意引入噪声、模糊效果以及变化的光照条件，模型能够学会在面对经过篡改的输入时仍保持高准确率。此外，利用 Ultralytics 上的工具持续监控已部署的模型，有助于识别可能表明正在发生攻击的异常推理模式，从而确保企业部署环境中的数据安全。

测试模型鲁棒性

为了确保您的计算机视觉模型能够抵御细微的输入篡改，您可以使用 Python 模拟基本的对抗性机器学习场景。这有助于验证像 Ultralytics 这样的模型在面对噪声数据或略有改动的数据时，能否继续保持可靠的性能。

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

通过积极检测漏洞并采取强有力的安全措施，开发人员能够成功掌握如何缓解AI越狱问题，从而增强人们对现代AI系统的信任和信心。若想更深入地了解模型行为及可解释性，请探索可解释人工智能的原则。

越狱 (AI)

导出至17+种格式。部署至全球43个区域。

以每小时2.39美元的价格在H100 GPU上训练YOLO26。

灵活的企业级许可，为您的视觉AI项目赋能。

专为赋能您的下一个项目而设计的企业级许可

智能标注可将标注速度提升高达10倍

标注。训练。部署。一站式平台。

区分越狱与相关概念

人工智能越狱的实际案例

降低人工智能模型中的越狱风险

测试模型鲁棒性

阅读更多此类别的内容

如何使用Ultralytics 导出Ultralytics YOLO

利用Ultralytics 检测不安全的托盘堆放

Ultralytics 多边形标注指南

让我们一起共建AI的未来！