Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Adversarial Attacks (Angriffe durch gegnerische Beispiele)

Entdecken Sie die Auswirkungen von Adversarial Attacks auf KI-Systeme, ihre Arten, Beispiele aus der Praxis und Verteidigungsstrategien zur Verbesserung der KI-Sicherheit.

Adversarial Attacks sind eine ausgeklügelte Kategorie von Manipulationstechniken, die darauf abzielen, Maschinelle Lernmodelle (ML) dazu zu bringen, falsche Vorhersagen mit hoher Konfidenz zu treffen. Diese Angriffe funktionieren, indem sie subtile, oft nicht wahrnehmbare Störungen in die Eingabedaten einbringen – beispielsweise in Bilder, Audio oder Text. Während diese Änderungen für einen menschlichen Beobachter harmlos oder zufällig erscheinen, nutzen sie spezifische mathematische Schwachstellen in den Entscheidungsgrenzen von hochdimensionalen neuronalen Netzen aus. Da Systeme der künstlichen Intelligenz (KI) zu einem integralen Bestandteil sicherheitskritischer Infrastrukturen werden, ist das Verständnis der Funktionsweise dieser Schwachstellen für die Entwicklung robuster KI-Sicherheitsprotokolle und Abwehrmechanismen von entscheidender Bedeutung.

Wie Adversarial Attacks funktionieren

In einem typischen Deep-Learning-Trainingsprozess (DL) optimiert ein Modell seine Gewichte, um Fehler in einem Trainingsdatensatz zu minimieren. Diese Modelle erstellen jedoch im Wesentlichen komplexe Karten in einem mehrdimensionalen Raum. Ein gegnerischer Angriff berechnet die genaue „Richtung“ in diesem Raum, die erforderlich ist, um eine Eingabe über eine Grenze zu schieben und die Klassifizierung des Modells umzukehren. In der Computervision (CV) kann beispielsweise die Änderung der Pixelwerte eines Panda-Bildes um einen berechneten „Rauschwert” dazu führen, dass das System das Bild mit hoher Sicherheit fälschlicherweise als Gibbon klassifiziert, obwohl das Bild für das menschliche Auge immer noch genau wie ein Panda aussieht.

Angriffsstrategien werden im Allgemeinen nach dem Zugriffsniveau des Angreifers auf das Zielsystem kategorisiert:

  • White-Box-Angriffe: Der Angreifer hat vollständige Transparenz hinsichtlich der Architektur, Gradienten und Modellgewichte des Modells. Dies ermöglicht es ihm, mathematisch die effektivste Störung zu berechnen, häufig unter Verwendung von Techniken wie der Fast Gradient Sign Method (FGSM).
  • Black-Box-Angriffe: Der Angreifer hat keine Kenntnis von den internen Modellparametern und kann nur Eingaben und Ausgaben beobachten. Angreifer verwenden häufig ein „Ersatzmodell”, um gegnerische Beispiele zu generieren, die effektiv auf das Zielsystem übertragen werden können – eine Eigenschaft, die als Übertragbarkeit bekannt ist.

Anwendungen und Risiken in der realen Welt

Obwohl sie häufig in der theoretischen Forschung diskutiert werden, stellen gegnerische Angriffe konkrete Risiken für reale Einsätze dar, insbesondere in autonomen Systemen und im Sicherheitsbereich.

  • Autonome Fahrzeuge: Selbstfahrende Autos sind stark auf die Objekterkennung angewiesen, um Verkehrszeichen zu interpretieren. Untersuchungen haben gezeigt, dass durch das Anbringen sorgfältig gestalteter Aufkleber oder Klebebänder auf einem Stoppschild das Sichtsystem des Fahrzeugs dazu gebracht werden kann, dieses als Geschwindigkeitsbegrenzungsschild wahrzunehmen. Diese Art von Angriffen in der physischen Welt könnte zu gefährlichen Ausfällen der KI in Automobilanwendungen führen.
  • Gesichtserkennungs-Umgehung: Sicherheitssysteme, die den Zugang auf Basis biometrischer Daten kontrollieren, können durch gegnerische „Patches” kompromittiert werden. Dabei handelt es sich um aufgedruckte Muster, die auf Brillen oder Kleidung getragen werden und den Prozess der Merkmalsextraktion stören. Dadurch kann eine unbefugte Person entweder der Erkennung vollständig entgehen oder sich als ein bestimmter Benutzer ausgeben und so Sicherheitsalarmsysteme umgehen.

Erzeugen von Adversarial Examples in Python

Um zu verstehen, wie anfällig manche Modelle sein können, ist es hilfreich zu sehen, wie leicht ein Bild gestört werden kann. Während die Standardinferenz mit Modellen wie YOLO26 für den allgemeinen Gebrauch robust ist, simulieren Forscher häufig Angriffe, um die Modellüberwachung und -verteidigung zu verbessern. Das folgende konzeptionelle Beispiel verwendet PyTorch zeigen, wie Gradienten verwendet werden, um eine gegnerische Störung (Rauschen) für ein Bild zu berechnen.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Verwandte Konzepte

Es ist wichtig, gegnerische Angriffe von anderen Formen des Modellversagens oder der Manipulation zu unterscheiden:

  • Datenvergiftung: Im Gegensatz zu gegnerischen Angriffen, bei denen die Eingabe während der Inferenz (Testzeit) manipuliert wird, umfasst die Datenvergiftung die Verfälschung der Trainingsdaten selbst, bevor das Modell erstellt wird, wobei versteckte Hintertüren oder Verzerrungen eingebettet werden.
  • Prompt Injection: Dies ist spezifisch für große Sprachmodelle (LLMs) und Textschnittstellen. Obwohl es konzeptionell ähnlich ist – das Modell zu täuschen –, basiert es eher auf semantischer Sprachmanipulation als auf mathematischer Störung von Pixel- oder Signaldaten.
  • Überanpassung: Hierbei handelt es sich um einen Trainingsfehler , bei dem ein Modell eher das Rauschen in den Trainingsdaten als das zugrunde liegende Muster lernt. Überangepasste Modelle sind oft anfälliger für gegnerische Angriffe, da ihre Entscheidungsgrenzen übermäßig komplex und brüchig sind.

Die Entwicklung von Abwehrmaßnahmen gegen diese Angriffe ist ein zentraler Bestandteil moderner MLOps. Techniken wie das Adversarial Training, bei dem angegriffene Beispiele zum Trainingssatz hinzugefügt werden, tragen dazu bei, Modelle widerstandsfähiger zu machen. Plattformen wie die Ultralytics ermöglichen strenge Trainings- und Validierungspipelines, sodass Teams die Robustheit von Modellen vor der Bereitstellung auf Edge-Geräten bewerten können.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten