Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Attaques adversariales

Découvrez comment les attaques adversaires manipulent les modèles d'apprentissage automatique. Apprenez-en davantage sur les stratégies de type « boîte blanche » et « boîte noire », les risques pour la sécurité de l'IA et la défense avec Ultralytics .

Les attaques adversaires constituent une catégorie sophistiquée de techniques de manipulation conçues pour tromper les modèles d'apprentissage automatique (ML) afin qu'ils fassent des prédictions incorrectes avec un haut degré de confiance. Ces attaques fonctionnent en introduisant des perturbations subtiles, souvent imperceptibles, dans les données d'entrée, telles que les images, les fichiers audio ou les textes. Bien que ces modifications semblent inoffensives ou aléatoires pour un observateur humain , elles exploitent des vulnérabilités mathématiques spécifiques dans les limites de décision des réseaux neuronaux à haute dimension. Alors que les systèmes d'intelligence artificielle (IA) deviennent partie intégrante des infrastructures critiques pour la sécurité, il est essentiel de comprendre le fonctionnement de ces vulnérabilités afin de développer des protocoles de sécurité et des mécanismes de défense robustes pour l'IA .

Comment fonctionnent les attaques adversariales

Dans un processus d'apprentissage profond (DL) classique, un modèle optimise ses poids afin de minimiser les erreurs sur un ensemble de données d'apprentissage. Cependant, ces modèles créent essentiellement des cartes complexes dans un espace multidimensionnel. Une attaque antagoniste calcule la « direction » précise dans cet espace nécessaire pour pousser une entrée au-delà d'une limite, renversant ainsi la classification du modèle. Par exemple, en vision par ordinateur (CV), modifier les valeurs de pixels d'une image de panda d'une quantité calculée de « bruit » peut amener le système à la classer de manière erronée comme un gibbon, même si l'image ressemble toujours exactement à un panda à l'œil humain.

Les stratégies d'attaque sont généralement classées en fonction du niveau d'accès dont dispose l'attaquant au système cible :

  • Attaques par boîte blanche: l'attaquant dispose d'une transparence totale sur l'architecture, les gradients et les pondérations du modèle. Cela lui permet de calculer mathématiquement la perturbation la plus efficace, souvent à l'aide de techniques telles que la méthode FGSM (Fast Gradient Sign Method).
  • Attaques par boîte noire: L'attaquant n'a aucune connaissance des paramètres internes du modèle et ne peut qu'observer les entrées et les sorties. Les attaquants utilisent souvent un « modèle de substitution » pour générer des exemples adversaires qui se transfèrent efficacement vers le système cible , une propriété connue sous le nom de transférabilité.

Applications et risques dans le monde réel

Bien qu'elles soient souvent abordées dans la recherche théorique, les attaques adversaires posent des risques tangibles pour les déploiements dans le monde réel, en particulier dans les systèmes autonomes et la sécurité.

  • Véhicules autonomes: Les voitures autonomes s'appuient fortement sur la détection d'objets pour interpréter les panneaux de signalisation. Des recherches ont démontré que l'application d'autocollants ou de ruban adhésif soigneusement conçus sur un panneau « Stop » peut tromper le système de vision du véhicule et lui faire percevoir ce panneau comme un panneau de limitation de vitesse. Ce type d'attaque physique pourrait entraîner des défaillances dangereuses de l'IA dans les applications automobiles.
  • Contournementde la reconnaissance faciale: Les systèmes de sécurité qui contrôlent l'accès à l'aide de données biométriques peuvent être compromis par des « correctifs » adversaires. Il peut s'agir de motifs imprimés portés sur des lunettes ou des vêtements qui perturbent le processus d'extraction des caractéristiques. Cela permet à une personne non autorisée d'échapper complètement à la détection ou d'usurper l'identité d'un utilisateur spécifique, contournant ainsi les systèmes d'alarme de sécurité.

Génération d'exemples contradictoires en Python

Pour comprendre à quel point certains modèles peuvent être fragiles, il est utile de voir à quel point une image peut être facilement perturbée. Bien que l' inférence standard avec des modèles tels que YOLO26 soit robuste pour une utilisation générale, les chercheurs simulent souvent des attaques afin d'améliorer la surveillance et la défense des modèles. L'exemple conceptuel suivant utilise PyTorch montrer comment les gradients sont utilisés pour calculer une perturbation antagoniste (bruit) pour une image.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Concepts connexes

Il est important de distinguer les attaques adversaires des autres formes de défaillance ou de manipulation des modèles :

  • Empoisonnement des données: Contrairement aux attaques antagonistes qui manipulent les données d'entrée pendant l'inférence (phase de test), l'empoisonnement des données consiste à corrompre les données d'entraînement elles-mêmes avant la construction du modèle, en y intégrant des portes dérobées ou des biais cachés.
  • Injection rapide: cette technique est spécifique aux modèles linguistiques de grande taille (LLM) et aux interfaces textuelles . Bien que conceptuellement similaire (elle consiste à tromper le modèle), elle repose sur la manipulation sémantique du langage plutôt que sur la perturbation mathématique des données de pixels ou de signaux.
  • Surajustement: Il s'agit d'un échec de l'apprentissage où un modèle apprend le bruit dans les données d'apprentissage plutôt que le modèle sous-jacent. Les modèles surajustés sont souvent plus sensibles aux attaques adversaires car leurs limites de décision sont trop complexes et fragiles.

Le développement de défenses contre ces attaques est un élément central des MLOps modernes . Des techniques telles que l' entraînement antagoniste, qui consiste à ajouter des exemples d'attaques à l'ensemble d'entraînement, contribuent à rendre les modèles plus résilients. Des plateformes telles que la Ultralytics facilitent la mise en place de pipelines d'entraînement et de validation rigoureux, permettant aux équipes d'évaluer la robustesse des modèles avant leur déploiement sur des appareils périphériques.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant