Découvrez comment les attaques adversaires manipulent les modèles d'apprentissage automatique. Apprenez-en davantage sur les stratégies de type « boîte blanche » et « boîte noire », les risques pour la sécurité de l'IA et la défense avec Ultralytics .
Les attaques adversaires constituent une catégorie sophistiquée de techniques de manipulation conçues pour tromper les modèles d'apprentissage automatique (ML) afin qu'ils fassent des prédictions incorrectes avec un haut degré de confiance. Ces attaques fonctionnent en introduisant des perturbations subtiles, souvent imperceptibles, dans les données d'entrée, telles que les images, les fichiers audio ou les textes. Bien que ces modifications semblent inoffensives ou aléatoires pour un observateur humain , elles exploitent des vulnérabilités mathématiques spécifiques dans les limites de décision des réseaux neuronaux à haute dimension. Alors que les systèmes d'intelligence artificielle (IA) deviennent partie intégrante des infrastructures critiques pour la sécurité, il est essentiel de comprendre le fonctionnement de ces vulnérabilités afin de développer des protocoles de sécurité et des mécanismes de défense robustes pour l'IA .
Dans un processus d'apprentissage profond (DL) classique, un modèle optimise ses poids afin de minimiser les erreurs sur un ensemble de données d'apprentissage. Cependant, ces modèles créent essentiellement des cartes complexes dans un espace multidimensionnel. Une attaque antagoniste calcule la « direction » précise dans cet espace nécessaire pour pousser une entrée au-delà d'une limite, renversant ainsi la classification du modèle. Par exemple, en vision par ordinateur (CV), modifier les valeurs de pixels d'une image de panda d'une quantité calculée de « bruit » peut amener le système à la classer de manière erronée comme un gibbon, même si l'image ressemble toujours exactement à un panda à l'œil humain.
Les stratégies d'attaque sont généralement classées en fonction du niveau d'accès dont dispose l'attaquant au système cible :
Bien qu'elles soient souvent abordées dans la recherche théorique, les attaques adversaires posent des risques tangibles pour les déploiements dans le monde réel, en particulier dans les systèmes autonomes et la sécurité.
Pour comprendre à quel point certains modèles peuvent être fragiles, il est utile de voir à quel point une image peut être facilement perturbée. Bien que l' inférence standard avec des modèles tels que YOLO26 soit robuste pour une utilisation générale, les chercheurs simulent souvent des attaques afin d'améliorer la surveillance et la défense des modèles. L'exemple conceptuel suivant utilise PyTorch montrer comment les gradients sont utilisés pour calculer une perturbation antagoniste (bruit) pour une image.
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbation
Il est important de distinguer les attaques adversaires des autres formes de défaillance ou de manipulation des modèles :
Le développement de défenses contre ces attaques est un élément central des MLOps modernes . Des techniques telles que l' entraînement antagoniste, qui consiste à ajouter des exemples d'attaques à l'ensemble d'entraînement, contribuent à rendre les modèles plus résilients. Des plateformes telles que la Ultralytics facilitent la mise en place de pipelines d'entraînement et de validation rigoureux, permettant aux équipes d'évaluer la robustesse des modèles avant leur déploiement sur des appareils périphériques.