Découvrez comment l'injection d'invite exploite les vulnérabilités de l'IA, impacte la sécurité, et apprenez des stratégies pour protéger les systèmes d'IA contre les attaques malveillantes.
L'injection d'invites est une faille de sécurité critique qui affecte les systèmes basés sur des modèles de langage de grande taille (LLM) et d'autres systèmes. sur les grands modèles de langage (LLM) et d'autres technologies d'IA générative. Elle se produit lorsqu'un utilisateur malveillant crée une entrée spécifique - souvent déguisée en une qui incite le modèle d'IA à ignorer les instructions initiales définies par le développeur et à exécuter des commandes non souhaitées. commandes involontaires. À l'instar de l'injection SQL qui permet aux SQL permet aux attaquants de manipuler les bases de données en interférant avec les requêtes du backend, l'injection d'invite cible le traitement du langage naturel (NLP). traitement du langage naturel (NLP) en exploitant le fait que de nombreux modèles modernes traitent les données de l'utilisateur et les instructions du système dans la même fenêtre contextuelle. fenêtre.
Dans une application d'IA classique, un développeur fournit une "invite système" qui définit les règles, le persona et les limites de sécurité de l'agent d'IA. et les limites de sécurité de l'agent d'IA. Cependant, comme les LLM sont conçus pour suivre des instructions avec fluidité, ils peuvent avoir du mal à faire la distinction entre l'invite du système qui fait autorité et l'entrée de l'utilisateur. et l'entrée de l'utilisateur. Une attaque par injection d'invite réussie passe outre les garde-fous de sécurité du système, ce qui peut conduire à des fuites de données, à une utilisation non autorisée de l'ordinateur ou à une perte de données. potentiellement conduire à des fuites de données, à des actions non autorisées ou à la génération de contenus nuisibles. Cette menace est actuellement classée comme une préoccupation majeure dans le OWASP Top 10 for LLM Applications, ce qui souligne son importance dans le paysage de la cybersécurité.
Les attaques par injection d'invites peuvent se manifester de différentes manières, allant de l'espièglerie à la violation grave de la sécurité.
Bien qu'initialement associée aux modèles textuels, l'injection rapide devient de plus en plus pertinente dans le domaine de la vision par ordinateur (CV) en raison de l'augmentation du nombre de modèles textuels. vision par ordinateur (CV) en raison de l'essor des modèles multimodaux. modèles multimodaux. Les modèles vision-langage (VLM) comme CLIP ou permettent aux utilisateurs de définir les objets à trouver à l'aide de descriptions textuelles.
Par exemple, dans des modèles comme YOLO, les classes à détecter sont définies par des messages textuels. à détecter sont définies par des invites textuelles. Une entrée malveillante pourrait théoriquement manipuler l'espace d'intégration pour mal classer les objets ou ignorer les menaces.
Le code suivant montre comment les invites textuelles s'interfacent avec un modèle de vision, représentant le point d'entrée où les tentatives d'injection pourraient se produire. les tentatives d'injection pourraient se produire :
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Il est essentiel de différencier l'injection rapide des autres termes de l'écosystème de l'IA :
La défense contre l'injection rapide nécessite une approche de défense en profondeur, car aucune solution unique n'est actuellement infaillible.
Les organisations devraient consulter des cadres tels que le NIST AI Risk Management Framework afin de mettre en œuvre des pratiques de sécurité complètes pour leurs déploiements d'IA.