Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Adversarial Attacks (Angriffe durch gegnerische Beispiele)

Entdecken Sie die Auswirkungen von Adversarial Attacks auf KI-Systeme, ihre Arten, Beispiele aus der Praxis und Verteidigungsstrategien zur Verbesserung der KI-Sicherheit.

Adversarische Angriffe sind eine ausgeklügelte Technik zur Täuschung Modelle des maschinellen Lernens zu täuschen, indem sie subtile, absichtlich herbeigeführte Störungen der Eingabedaten. Diese Änderungen, die für das menschliche Auge oft nicht wahrnehmbar sind, manipulieren die mathematischen Operationen innerhalb eines neuronalen Netzes und veranlassen es zu Vorhersagen mit hoher Zuverlässigkeit, aber falsch. Als Künstliche Intelligenz wird immer mehr in kritische Systeme integriert wird, ist das Verständnis dieser Schwachstellen unerlässlich, um sicherzustellen dass der Einsatz von Modellen sicher und zuverlässig bleibt.

Mechanismen und Techniken

Das Kernprinzip eines gegnerischen Angriffs besteht darin, die "blinden Flecken" in der Entscheidungsgrenze eines Modells zu identifizieren. Beim Deep Learning lernen die Modelle, Daten classify , indem sie Optimierung der Modellgewichte, um den Fehler zu minimieren. Angreifer machen sich dies zunutze, indem sie die genauen Änderungen berechnen, die erforderlich sind, um eine Eingabe über eine Klassifizierungsschwelle zu bringen. Für beispielsweise die Fast Gradient Sign Method (FGSM), die von Forschern wie Ian Goodfellow eingeführt wurde, passt die Pixelwerte der Eingabe in die Richtung an, die die Verlustfunktion maximiert, Dadurch wird schnell ein ungünstiges Beispiel erzeugt.

Angriffe werden im Allgemeinen nach dem Grad der dem Angreifer zur Verfügung stehenden Informationen eingeteilt:

  • White-Box-Angriffe: Der Angreifer hat vollen Zugriff auf die Architektur und die Parameter des Modells. Diese ermöglicht präzise Berechnungen, um bestimmte Schichten zu täuschen, und testet oft die Grenzen der algorithmischen Verzerrung.
  • Black-Box-Angriffe: Der Angreifer hat keine internen Kenntnisse und interagiert mit dem Modell nur über Eingaben und Ausgaben, ähnlich wie bei einer Standard Inferenzmaschine. Diese Angriffe beruhen oft auf Übertragbarkeit, wobei ein Beispiel, das ein Modell täuscht, wahrscheinlich auch ein anderes täuscht.

Anwendungen und Risiken in der realen Welt

Die Auswirkungen von Angriffen durch Angreifer gehen weit über die akademische Forschung hinaus und stellen eine echte Gefahr für sicherheitskritische Infrastruktur.

  1. Autonomes Fahren: Auf dem Gebiet der KI im Automobilbereich, visuelle Wahrnehmungssysteme auf der Objekterkennung, um Verkehrszeichen zu schilder. Forscher haben gezeigt, dass das Anbringen bestimmter Aufkleber auf einem Stoppschild dazu führen kann, dass ein ein autonomes Fahrzeug veranlassen kann, es fälschlicherweise als Geschwindigkeitsbegrenzungsschild. Diese Art von physischen Angriffen macht deutlich, dass Computer-Vision-Systeme, die im öffentlichen Straßenverkehr eingesetzt werden, extrem robust sein müssen. Computer-Vision-Systemen, die auf öffentlichen Straßen eingesetzt werden.
  2. Biometrische Sicherheit: Viele sichere Einrichtungen und Geräte verwenden Gesichtserkennung für die Zugangskontrolle. Brillen oder gedruckte Muster können so gestaltet werden, dass sie den Merkmalsextraktion zu stören, so dass ein unbefugten Benutzer die Sicherheit zu umgehen oder sich als eine bestimmte Person auszugeben.

Abwehrkräfte und Robustheit

Der Schutz vor diesen Bedrohungen ist eine Schlüsselkomponente der KI-Sicherheit. Frameworks wie der MITRE ATLAS bieten eine Wissensbasis über die Taktiken von Angreifern, die den Entwicklern helfen ihre Systeme zu härten. Eine primäre Verteidigungsstrategie ist das "Adversarial Training", bei dem gegnerische Beispiele generiert und zu den Trainingsdaten hinzugefügt werden. Diese zwingt das Modell zu lernen, kleine Störungen zu ignorieren.

Eine weitere wirksame Methode ist die Datenerweiterung. Durch Rauschen, deutliche Beschneidungen oder Mosaikeffekte während des Trainings eingeführt werden, kann das Modell besser verallgemeinert werden und wird weniger spröde. Das NIST AI Risk Management Framework unterstreicht diese Test- und Validierungsverfahren zur Minderung von Sicherheitsrisiken.

Abgrenzung zu verwandten Konzepten

Es ist wichtig, Angriffe von ähnlichen Begriffen in der Sicherheitslandschaft abzugrenzen:

  • Adversarial Attacks vs. Data Poisoning: Während feindliche Angriffe die Eingaben zur Inferenzzeit manipulieren Zeit manipulieren, um ein trainiertes Modell auszutricksen, beinhaltet Data Poisoning die Beschädigung des Datensatzes vor Beginn des Trainings, wodurch die grundlegende Integrität des Modells beeinträchtigt wird.
  • Adversarische Angriffe vs. Prompt Injection: Versehentliche Angriffe zielen in der Regel auf numerische oder visuelle Daten in diskriminierenden Modellen. Im Gegensatz dazu, Prompt Injection ist spezifisch für Large Language Models (LLMs), bei denen bösartige Textanweisungen die Programmierung der KI außer Kraft setzen.

Stärkung der Modellrobustheit

Das folgende Python demonstriert, wie man eine starke Augmentation während des Trainings mit Ultralytics YOLO11. Dadurch werden zwar keine Angriffe generiert, die Verwendung von Techniken wie MixUp und Mosaic die Robustheit des Modells gegenüber Eingabevariationen und potentiellem Rauschen.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten