Glossaire

Attaques adversariales

Découvrez l'impact des attaques adversariales sur les systèmes d'IA, leurs types, des exemples concrets et des stratégies de défense pour améliorer la sécurité de l'IA.

Les attaques adverses sont une technique sophistiquée utilisée pour tromper les modèles d'apprentissage automatique en introduisant des éléments subtils. les modèles d'apprentissage automatique en introduisant des subtiles, conçues intentionnellement, aux données d'entrée. Ces modifications, souvent imperceptibles à l'œil humain, manipulent les opérations mathématiques au sein d'un réseau neuronal, l'amenant à faire des prédictions des prédictions erronées avec une grande confiance. Au fur et à mesure que l 'intelligence artificielle l'intelligence artificielle s'intègre de plus en plus dans les systèmes critiques, il est essentiel de comprendre ces vulnérabilités pour s'assurer que le déploiement des modèles reste sûr et fiable. que le déploiement des modèles reste sûr et fiable.

Mécanismes et techniques

Le principe fondamental d'une attaque contradictoire est d'identifier les "angles morts" dans la frontière décisionnelle d'un modèle. Dans l'apprentissage profond, les modèles apprennent à classify données en optimisant les poids du modèle afin de minimiser l'erreur. en optimisant les poids du modèle pour minimiser l'erreur. Les attaquants exploitent cela en calculant les changements précis nécessaires pour faire franchir à une entrée un seuil de classification. Par exemple, le par exemple, la méthode du signe du gradient rapide (FGSM), introduite par des par des chercheurs comme Ian Goodfellow, ajuste les valeurs des pixels d'entrée dans la direction qui maximise la fonction de perte, créant rapidement un exemple contradictoire.

Les attaques sont généralement classées en fonction du niveau d'information dont dispose l'attaquant :

Attaques par boîte blanche : L'attaquant a un accès total à l'architecture et aux paramètres du modèle. Cela Cela permet d'effectuer des calculs précis pour tromper des couches spécifiques, en testant souvent les limites des biais algorithmiques. biais algorithmiques.
Attaques par boîte noire : L'attaquant n'a aucune connaissance interne et n'interagit avec le modèle que par le biais d'entrées et de sorties. des entrées et des sorties, comme avec un moteur d'inférence standard. moteur d'inférence standard. Ces attaques s'appuient souvent sur transférabilité, où un exemple qui trompe un modèle est susceptible d'en tromper un autre.

Applications et risques dans le monde réel

Les implications des attaques adverses vont bien au-delà de la recherche académique, car elles posent de véritables risques pour les infrastructures essentielles à la sécurité. sécurité.

Conduite autonome : Dans le domaine de l l 'IA dans l'automobile, les systèmes de perception visuelle s'appuient sur la détection d'objets pour identifier les panneaux de signalisation. Des chercheurs ont démontré que l'apposition d'autocollants spécifiques sur un panneau d'arrêt peut amener un véhicule autonome à le classer à tort comme un panneau de signalisation. un véhicule autonome de le classer à tort comme un panneau de limitation de vitesse. Ce type d'attaque physique contradictoire met en évidence la nécessité d'une robustesse extrême pour les systèmes de vision artificielle utilisés sur la voie publique. systèmes de vision artificielle utilisés sur la voie publique.
Sécurité biométrique : De nombreuses installations et dispositifs sécurisés utilisent la reconnaissance faciale pour le contrôle d'accès. Des lunettes adverses ou des motifs imprimés peuvent être conçus pour perturber le processus d'extraction des caractéristiques, ce qui permet à une personne malveillante de s'introduire dans le système. processus d'extraction des caractéristiques, ce qui permet à un utilisateur non autorisé de contourner la sécurité ou de se faire passer pour une personne spécifique. de contourner la sécurité ou d'usurper l'identité d'une personne.

Défenses et robustesse

La défense contre ces menaces est un élément clé de la sécurité de l'IA. sécurité de l'IA. Des cadres tels que le MITRE ATLAS fournissent une base de connaissances sur les tactiques des adversaires afin d'aider les développeurs à renforcer leurs systèmes. aider les développeurs à renforcer leurs systèmes. L'une des principales stratégies de défense est l'entraînement contradictoire, qui consiste à générer des exemples contradictoires et à les ajouter aux données d'entraînement. sont générés et ajoutés aux données d'entraînement. Cela oblige le modèle à apprendre à ignorer les petites erreurs. Cela oblige le modèle à apprendre à ignorer les petites perturbations.

Une autre méthode efficace est l'augmentation des données. En en introduisant du bruit, des recadrages distincts ou des effets de mosaïque pendant la formation, le modèle se généralise mieux et devient moins fragile. moins fragile. Le cadre de gestion des risques liés à l'IA du NIST AI Risk Management Framework met l'accent sur ces procédures de test et de validation afin d'atténuer les risques de sécurité. procédures de test et de validation pour atténuer les risques de sécurité.

Distinction par rapport aux concepts apparentés

Il est important de distinguer les attaques adverses des termes similaires dans le paysage de la sécurité :

Attaques adverses et empoisonnement des données : Alors que les attaques adverses manipulent les entrées au moment de l'inférence d'inférence pour tromper un modèle formé, l'empoisonnement des données consiste à l'altération de l'ensemble des données avant le début de la formation, ce qui compromet l'intégrité fondamentale du modèle.
Attaques adverses et injections rapides : Les attaques adverses ciblent généralement des données numériques ou visuelles dans des modèles discriminants. numériques ou visuelles dans les modèles discriminants. En revanche, l'injection l'injection rapide est spécifique aux grands modèles de langage (LLM), où des instructions textuelles où des instructions textuelles malveillantes annulent la programmation de l'IA.

Renforcer la robustesse des modèles

L'extrait Python suivant montre comment appliquer une forte augmentation pendant la formation avec Ultralytics YOLO11. Bien que cela ne génère pas d'attaques, l'utilisation de techniques telles que MixUp et Mosaic l'utilisation de techniques telles que MixUp et Mosaic améliore considérablement la robustesse du modèle face aux variations d'entrée et aux bruits adverses potentiels. les bruits adverses potentiels.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Attaques adversariales

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Mécanismes et techniques

Applications et risques dans le monde réel

Défenses et robustesse

Distinction par rapport aux concepts apparentés

Renforcer la robustesse des modèles

En savoir plus dans cette catégorie

Tendances futures en matière de détection d'objets : 7 éléments clés à surveiller

Améliorer la réidentification des véhicules avec les modèlesYOLO 'Ultralytics

Améliorer la prédiction des collisions avec les modèles Ultralytics YOLO

Rejoindre la communauté Ultralytics