Data Poisoning
Erfahre mehr über Data Poisoning und seine Auswirkungen auf die KI. Entdecke, wie du Ultralytics YOLO26-Modelle sicherst und Trainingsdaten mit der Ultralytics Platform schützt.
Data Poisoning ist eine Cybersecurity-Bedrohung, bei der böswillige Akteure gezielt die Trainingsdaten manipulieren, die zum Aufbau von Machine Learning (ML)-Modellen verwendet werden. Durch die Verfälschung des Datensatzes vor dem Training des Modells können Angreifer versteckte Hintertüren einbauen, Voreingenommenheiten erzeugen oder die Gesamtleistung des Modells verschlechtern. Im Gegensatz zu anderen Sicherheitsangriffen, die auf den Code eines Systems abzielen, richten sich Data-Poisoning-Angriffe direkt gegen den Lernprozess selbst, was sie extrem schwer erkennbar macht, sobald das Modell in Produktionsumgebungen eingesetzt wird. Laut der Bedrohungsanalyse von IBM stellen diese Angriffe ein ernstes Risiko für die Integrität und Zuverlässigkeit von Systemen der künstlichen Intelligenz dar.
Link to this sectionDie Mechanismen des KI-Poisonings#
Da sich Unternehmen zunehmend auf Deep Learning (DL) und Large Language Models (LLMs) verlassen, scrapen sie häufig riesige Mengen unüberprüfter Daten aus dem Internet. Diese Praxis schafft Möglichkeiten für Data-Injection, bei der Angreifer manipulierte oder schädliche Datenpunkte in öffentliche Repositorien einschleusen. Jüngste Studien zum KI-Poisoning aus dem Jahr 2025 zeigen eine alarmierende Realität: Selbst bei massiven Modellen mit Milliarden von Parametern muss ein Angreifer nur eine nahezu konstante, minimale Anzahl an Proben manipulieren, um das System zu kompromittieren.
LLM-Poisoning tritt auf, wenn spezifische Trigger-Phrasen in Texte eingeschleust werden, die das Modell während des Trainings verarbeitet. Nach der Bereitstellung funktioniert das Modell möglicherweise normal, bis ein Benutzer die Trigger-Phrase eingibt, was das System dazu veranlasst, Sicherheitsprotokolle zu umgehen oder toxische Ausgaben zu generieren. Die Forschung von Anthropic aus 2025 zum Thema LLM-Poisoning zeigt, dass bereits 250 vergiftete Dokumente ausreichen können, um eine Hintertür in einem Modell mit 13 Milliarden Parametern zu erstellen.
Link to this sectionPraktische Anwendungen und Beispiele#
Data Poisoning beschränkt sich nicht nur auf die Textgenerierung, sondern beeinträchtigt auch massiv Computer Vision (CV)-Modelle. Hier sind zwei konkrete Beispiele dafür, wie sich diese Bedrohung in realen Anwendungen auswirkt:
- Störung von generativen Kunst-Modellen: Tools wie das Nightshade-Projekt ermöglichen es digitalen Künstlern, die Pixel ihrer Kunstwerke subtil zu verändern, bevor sie diese online hochladen. Wenn ein Generative AI-Modell diese Bilder für das Training scrapt, wirken die veränderten Pixel als Gift, was dazu führt, dass das Modell Prompts vollständig falsch klassifiziert – beispielsweise wird ein Bild einer Katze generiert, wenn nach einem Auto gefragt wurde.
- Kompromittierung autonomer Fahrzeuge: Bei Objekterkennungssystemen, die für selbstfahrende Autos verwendet werden, könnte ein Angreifer Bilder von Stoppschildern in einem Open-Source-Trainingsdatensatz subtil verändern. Durch das Hinzufügen von spezifischem visuellem Rauschen lernt das Modell durch die vergifteten Trainingsdaten, Stoppschilder fälschlicherweise als Geschwindigkeitsbegrenzungsschilder zu interpretieren, was katastrophale Sicherheitsrisiken birgt.
Link to this sectionAbgrenzung zu Adversarial Attacks#
Obwohl sie eng miteinander verwandt sind, ist es wichtig, Data Poisoning von Adversarial Attacks zu unterscheiden. Adversarial Attacks finden während der Inferenz statt – der Angreifer manipuliert die Eingabedaten (z. B. durch das Anbringen eines Aufklebers auf einem realen Stoppschild), um ein bereits trainiertes Modell auszutricksen. Umgekehrt findet Data Poisoning während des Trainings statt und verändert die interne Logik des Modells grundlegend von Grund auf. Um beides anzugehen, sind robuste AI Safety-Protokolle erforderlich.
Link to this sectionRisikominderung bei der Modellentwicklung#
Die Verteidigung gegen diese Bedrohungen erfordert ein rigoroses model monitoring und die Verwendung von einwandfreien, vertrauenswürdigen validation data, um die Integrität des Modells zu überprüfen. Die Evaluierung eines Modells anhand eines verifizierten Datensatzes kann Teams helfen, unerwartete Leistungsabfälle zu erkennen, die auf eine Manipulation hindeuten könnten. Die von der Sicherheitsforschung von OpenAI und dem OWASP GenAI Security Project beschriebenen Best Practices betonen die strenge Datenherkunft und die Verwendung kuratierter Datensätze anstelle von rohem Web-Scraping.
Beim Aufbau und Testen von Modellen sollten Teams etablierte Frameworks wie PyTorch oder TensorFlow in Verbindung mit umfassenden Validierungsroutinen nutzen. Du kannst dein Ultralytics YOLO26-Modell einfach anhand eines sauberen, vertrauenswürdigen Datensatzes validieren, um sicherzustellen, dass die Genauigkeit nicht beeinträchtigt wurde.
from ultralytics import YOLO
# Load a custom-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Validate the model on a trusted dataset to detect performance drops
# Sudden decreases in precision/recall may indicate data poisoning
metrics = model.val(data="clean_validation_data.yaml")
print(f"mAP50-95: {metrics.box.map}") # Review core metricsFür Computer-Vision-Projekte im großen Maßstab ist die Verfolgung dieser Metriken über mehrere Trainingsläufe hinweg unerlässlich. Entwickler können model evaluation insights erkunden, um die Basisleistung zu verstehen, und die Ultralytics Platform nutzen, um Daten sicher zu annotieren, zu trainieren und zu verwalten, ohne auf unüberprüfte externe Quellen angewiesen zu sein. Die Kombination aus sicherer Datenkuratierung und kontrollierten data augmentation-Techniken trägt dazu bei, dass deine Modelle sowohl genau als auch widerstandsfähig gegen externe Manipulationen bleiben.






