Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Adversarial Attacks (Angriffe durch gegnerische Beispiele)

Entdecken Sie die Auswirkungen von Adversarial Attacks auf KI-Systeme, ihre Arten, Beispiele aus der Praxis und Verteidigungsstrategien zur Verbesserung der KI-Sicherheit.

Adversarial Attacks sind eine Technik, die verwendet wird, um Machine-Learning-Modelle zu täuschen, indem sie mit bösartigen, absichtlich entworfenen Eingaben versorgt werden. Diese Eingaben, die als Adversarial Examples bekannt sind, werden erzeugt, indem geringfügige Änderungen an legitimen Daten vorgenommen werden. Die Änderungen sind oft so gering, dass sie für das menschliche Auge nicht wahrnehmbar sind, aber sie können ein neuronales Netzwerk dazu veranlassen, eine falsche Vorhersage mit hoher Sicherheit zu treffen. Diese Schwachstelle stellt ein erhebliches Sicherheitsrisiko für KI-Systeme dar, insbesondere in kritischen Computer-Vision-Anwendungen, in denen Zuverlässigkeit und Genauigkeit von größter Bedeutung sind.

Wie Adversarial Attacks funktionieren

Adversarial Attacks nutzen die Art und Weise, wie Deep-Learning-Modelle lernen und Entscheidungen treffen. Ein Modell lernt, Muster zu erkennen, indem es eine "Entscheidungsgrenze" identifiziert, die verschiedene Datenkategorien trennt. Das Ziel eines Angreifers ist es, den effizientesten Weg zu finden, eine Eingabe so zu verändern, dass sie diese Grenze überschreitet und eine Fehlklassifizierung verursacht. Die hinzugefügte Störung ist kein zufälliges Rauschen, sondern ein sorgfältig berechnetes Signal, das die spezifischen Schwächen des Modells ausnutzen soll. Forschungsergebnisse von Institutionen wie der Carnegie Mellon University geben tiefe Einblicke in diese Mechanismen.

Arten von Adversarial Attacks

Angriffe werden im Allgemeinen danach kategorisiert, welches Wissen der Angreifer über das Zielmodell hat.

  • White-Box-Angriffe: Der Angreifer hat vollständige Kenntnis der Architektur, der Parameter und der Trainingsdaten des Modells. Dieser vollständige Zugriff ermöglicht die Erstellung hochwirksamer Angriffe, wie z. B. die Fast Gradient Sign Method (FGSM), die sich gut eignen, um die Robustheit eines Modells zu testen.
  • Black-Box-Angriffe: Der Angreifer hat keine internen Kenntnisse über das Modell und kann es nur abfragen, indem er Eingaben bereitstellt und dessen Ausgaben beobachtet. Diese Angriffe sind in realen Szenarien realistischer. Sie beruhen oft auf dem Prinzip der Übertragbarkeit, bei dem ein Adversarial Example, das erstellt wurde, um ein Modell zu täuschen, wahrscheinlich auch ein anderes Modell täuschen wird, ein Phänomen, das von Forschern bei Google AI untersucht wurde.

Beispiele aus der Praxis

  1. Fehlklassifizierung in der Bilderkennung: Ein bekanntes Beispiel ist ein Bildklassifizierungsmodell, das ein Bild eines Pandas korrekt identifiziert. Nach dem Hinzufügen einer unmerklichen Schicht von adversarial Noise klassifiziert dasselbe Modell das Bild mit hoher Sicherheit fälschlicherweise als Gibbon.
  2. Täuschung autonomer Systeme: Forscher haben erfolgreich demonstriert, dass das Anbringen einfacher Aufkleber auf einem Stoppschild ein Objekterkennungs-Modell in einem autonomen Fahrzeug täuschen kann. Das Modell kann das Schild fälschlicherweise als "Tempolimit 45"-Schild identifizieren, was ein kritischer Fehler für jedes KI im Automobilbereich-System darstellt. Diese sind als Physical Adversarial Attacks bekannt.

Abwehrmaßnahmen gegen feindliche Angriffe

Die Absicherung von Modellen gegen diese Bedrohungen ist ein aktives Forschungsgebiet. Zu den gängigen Abwehrstrategien gehören:

  • Adversarielles Training: Dies ist derzeit eine der effektivsten Verteidigungsmaßnahmen. Es beinhaltet die Generierung von adversarial Examples und deren Aufnahme in den Trainingsdatensatz des Modells. Dieser Prozess, eine Form der Datenerweiterung, hilft dem Modell, adversarial Störungen zu ignorieren und robustere Darstellungen aufzubauen.
  • Eingabe-Vorverarbeitung: Das Anwenden von Transformationen wie Unschärfe, Rauschunterdrückung oder JPEG-Komprimierung auf Eingabebilder, bevor sie in das Modell eingespeist werden, kann manchmal die gegnerischen Störungen entfernen oder reduzieren.
  • Model Ensembling: Die Kombination der Vorhersagen mehrerer verschiedener Modelle kann es einem Angreifer erschweren, ein einzelnes adverses Beispiel zu erstellen, das alle gleichzeitig täuscht.

Die Zukunft des Adversarial Machine Learning

Das Gebiet des Adversarial ML wird oft als ein kontinuierliches "Wettrüsten" beschrieben, bei dem ständig neue Angriffe und Abwehrmechanismen entstehen. Der Aufbau vertrauenswürdiger KI erfordert robuste Entwicklungs- und Testpraktiken. Frameworks wie das MITRE ATLAS for Adversarial Threat-informed Defense helfen Organisationen, diese Bedrohungen zu verstehen und sich darauf vorzubereiten. Organisationen wie NIST und Unternehmen wie Microsoft forschen aktiv an Abwehrmechanismen. Die Einbeziehung von Prinzipien aus der Explainable AI (XAI) hilft bei der Identifizierung von Schwachstellen, während die Einhaltung strenger KI-Ethikrichtlinien eine verantwortungsvolle Modellbereitstellung gewährleistet. Kontinuierliche Forschung und Wachsamkeit stellen sicher, dass Modelle wie Ultralytics YOLO11 sicher und zuverlässig in realen Anwendungen eingesetzt werden können. Um mehr über die sichere Modellentwicklung zu erfahren, erkunden Sie unsere Tutorials und erwägen Sie die Verwendung von Plattformen wie Ultralytics HUB für optimierte und sichere Arbeitsabläufe.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert