Data Poisoning

了解数据投毒及其对 AI 的影响。发现如何保护 Ultralytics YOLO26 模型并利用 Ultralytics Platform 保护训练数据。

Data poisoning is a cybersecurity threat where malicious actors intentionally manipulate the training data used to build Machine Learning (ML) models. By corrupting the dataset before a model is trained, attackers can introduce hidden backdoors, induce biases, or degrade the overall performance of the model. Unlike other security exploits that target a system's code, data poisoning attacks target the learning process itself, making them incredibly difficult to detect once the model is deployed into production environments. According to IBM's threat intelligence overview, these attacks pose severe risks to the integrity and reliability of artificial intelligence systems.

Link to this sectionAI 投毒的机制#

随着各组织越来越依赖深度学习 (DL) 和大型语言模型 (LLM)，它们往往会从互联网上抓取海量未经核实的数据。这种做法为数据注入创造了机会，攻击者可以将伪造或恶意的数点插入公共存储库。2025 年最近的 AI 投毒研究揭示了一个令人震惊的现实：即使对于拥有数十亿参数的大型模型，攻击者也只需操纵近乎恒定、极少量的样本即可破坏系统。

LLM 投毒发生于特定的触发短语被注入到模型在训练期间所消耗的文本中时。一旦部署，模型可能会正常运行，直到用户输入触发短语，从而导致系统绕过安全协议或生成有毒内容。Anthropic 关于 LLM 投毒的 2025 年研究表明，只需 250 个被投毒的文档，即可在 130 亿参数的模型中创建后门。

Link to this section现实世界的应用与示例#

数据投毒的影响远不止于文本生成，它对计算机视觉 (CV) 模型的影响也非常大。以下是这种威胁如何在现实应用中体现的两个具体示例：

干扰生成式艺术模型：像 Nightshade 项目这样的工具使数字艺术家能够在将艺术品上传到网络之前微妙地改变其像素。当生成式 AI 模型抓取这些图像进行训练时，改变后的像素会起到投毒作用，导致模型完全误判提示词——例如在提示词要求生成汽车时却生成了猫的图像。
危害自动驾驶车辆：在目标检测系统中，用于自动驾驶汽车的攻击者可能会微妙地篡改开源训练数据集中的停车标志图像。通过应用特定的视觉噪声，被投毒的训练数据会诱导模型将停车标志误解为限速标志，从而构成严重的交通安全风险。

Link to this section与对抗性攻击的区别#

虽然两者密切相关，但区分数据投毒与对抗性攻击非常重要。对抗性攻击发生在推理阶段——攻击者操纵输入数据（例如在现实世界的停车标志上贴贴纸）来欺骗已经训练好的模型。相反，数据投毒发生在训练阶段，从根本上改变了模型从底层开始的内部逻辑。解决这两者都需要稳健的 AI 安全协议。

Link to this section模型开发中的风险缓解#

防御这些威胁需要严格的模型监控，并使用原始且可信的验证数据来验证模型完整性。通过经过验证的数据集来评估模型，可以帮助团队捕捉到可能预示着遭到篡改的意外性能下降。OpenAI 的安全研究和 OWASP GenAI 安全项目所概述的最佳实践强调了严格的数据来源验证，并提倡使用经过整理的数据集，而不是直接进行网页抓取。

在构建和测试模型时，团队应利用像 PyTorch 或 TensorFlow 这样成熟的框架，并辅以全面的验证例程。你可以轻松地针对干净、受信任的数据集验证你的 Ultralytics YOLO26 模型，以确保其准确性未受损。

from ultralytics import YOLO

# Load a custom-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a trusted dataset to detect performance drops
# Sudden decreases in precision/recall may indicate data poisoning
metrics = model.val(data="clean_validation_data.yaml")

print(f"mAP50-95: {metrics.box.map}")  # Review core metrics

对于大规模计算机视觉项目，跨多个训练周期跟踪这些指标至关重要。开发者可以探索模型评估洞察以了解基准性能，并利用 Ultralytics Platform 安全地进行标注、训练和管理数据，而无需依赖未经核实的外部来源。将安全的数据整理与受控的数据增强技术相结合，有助于确保你的模型既准确又能够抵御外部篡改。