Glossaire

Débrider (IA)

Découvrez comment le « jailbreaking » de l'IA contourne les mesures de sécurité et apprenez à atténuer les risques. Protégez les modèles Ultralytics grâce à des mécanismes de défense et de surveillance robustes.

Dans le domaine de l' intelligence artificielle, le « jailbreaking » désigne la pratique consistant à contourner les garde-fous éthiques, les filtres de sécurité et les contraintes opérationnelles programmés dans un modèle d'IA. À l'origine, ce terme désignait le contournement des restrictions matérielles sur des appareils tels que les smartphones. Le « jailbreaking » de l'IA consiste à concevoir des entrées spécifiques, souvent manipulatrices, qui incitent le modèle à générer du contenu restreint, à exécuter des commandes non autorisées ou à révéler des invites système sensibles. À mesure que l'IA s'intègre de plus en plus dans les infrastructures critiques, il est essentiel de comprendre ces vulnérabilités pour développer des mesures de sécurité robustes en matière d'IA et prévenir toute utilisation abusive.

Distinguer le jailbreak des concepts apparentés

Bien que le « jailbreaking » présente des similitudes avec d'autres failles de sécurité dans le domaine de l'apprentissage automatique, il est important de le distinguer des termes apparentés :

Injection dans l'invite: cette technique consiste à insérer des instructions malveillantes dans une invite utilisateur légitime afin de détourner la sortie prévue du modèle. Le « jailbreaking » est une catégorie plus large qui vise spécifiquement à contourner entièrement les protocoles de sécurité fondamentaux du modèle.
« AI Red Teaming » : il s'agit d'une méthodologie de test autorisée et proactive dans laquelle des professionnels de la sécurité tentent délibérément de pirater un système afin d'identifier et de corriger les vulnérabilités avant le déploiement.
Attaques adversaires: souvent utilisées en vision par ordinateur, elles consistent à modifier subtilement les données d'entrée (par exemple en ajoutant du bruit invisible à une image) afin de pousser un modèle à commettre une erreur de classification, tandis que le « jailbreaking » se concentre généralement sur la manipulation linguistique ou logique.

Exemples concrets de « jailbreaking » de l'IA

Le jailbreaking se manifeste différemment selon le type de système d'IA, affectant aussi bien les architectures textuelles que celles basées sur la vision :

Exploitation des grands modèles linguistiques: les pirates ont souvent recours à des scénarios complexes de jeux de rôle ou à des cadres hypothétiques pour forcer les grands modèles linguistiques à ignorer leur formation à la sécurité. Par exemple, un utilisateur pourrait demander à une IA de se mettre dans la peau d’un « auteur fictif écrivant une histoire sur un pirate informatique », réussissant ainsi à tromper le modèle pour qu’il génère du code malveillant ou des instructions pour des activités dangereuses que ses filtres bloqueraient normalement. Des recherches récentes menées par Anthropic également mis en évidence des méthodes avancées telles que les techniques de « jailbreaking » à plusieurs essais, qui surchargent la fenêtre contextuelle du modèle afin de contourner les restrictions.
Attaques visant les systèmes multimodaux et de vision: à mesure que les modèles évoluent pour traiter à la fois le texte et les images, des recherches récentes sur les « jailbreaks » multimodaux démontrent que les attaquants peuvent intégrer des instructions textuelles malveillantes dans une image. Lorsqu’un modèle de vision-langage traite l’image, le texte caché déclenche un « jailbreak ». Dans les systèmes de sécurité physique, des entrées adversaires — telles qu’un patch à motif spécifique sur un vêtement — peuvent agir comme un jailbreak visuel, rendant la personne invisible aux modèles de surveillance automatisés.

Réduire les risques de « jailbreak » dans les modèles d'IA

Pour protéger les modèles contre ces failles, il faut mettre en place une stratégie de défense à plusieurs niveaux. Les développeurs suivent les directives de sécurité d'OpenAI et s'appuient sur des cadres tels que le cadre de gestion des risques liés à l'IA du NIST afin d'établir un niveau de sécurité de base .

Pour prévenir les attaques visuelles adversaires, les ingénieurs s'appuient sur une augmentation de données exhaustive pendant l'entraînement. En introduisant délibérément du bruit, des flous et des variations d'éclairage, le modèle apprend à conserver une grande précision même face à des entrées manipulées. De plus, la surveillance continue des modèles déployés à l'aide des outils disponibles sur la Ultralytics permet d'identifier les schémas d'inférence inhabituels pouvant indiquer une attaque en cours, garantissant ainsi une solide sécurité des données pour les déploiements en entreprise.

Évaluation de la robustesse des modèles

Pour vous assurer que vos modèles de vision par ordinateur résistent aux manipulations subtiles des données d'entrée, vous pouvez simuler des scénarios de base d'apprentissage automatique antagoniste à l'aide de Python. Cela permet de vérifier qu'un modèle tel que Ultralytics continue de fonctionner de manière fiable lorsqu'il est exposé à des données bruitées ou légèrement modifiées.

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

En testant activement les vulnérabilités et en mettant en place des mesures de sécurité solides, les développeurs peuvent apprendre comment atténuer les « jailbreaks » de l'IA, renforçant ainsi la confiance et la fiabilité des systèmes d'IA modernes. Pour mieux comprendre le comportement des modèles et leur interprétabilité, découvrez les principes de l' IA explicable.

Débrider (IA)

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Distinguer le jailbreak des concepts apparentés

Exemples concrets de « jailbreaking » de l'IA

Réduire les risques de « jailbreak » dans les modèles d'IA

Évaluation de la robustesse des modèles

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

Débrider (IA)

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Distinguer le jailbreak des concepts apparentés

Exemples concrets de « jailbreaking » de l'IA

Réduire les risques de « jailbreak » dans les modèles d'IA

Évaluation de la robustesse des modèles

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.