Scopri come la prompt injection sfrutta i modelli LLM e multimodali. Esplora i rischi nella visione artificiale, gli esempi reali e le strategie di mitigazione per la sicurezza dell'IA.
L'iniezione di prompt è una vulnerabilità di sicurezza che colpisce principalmente i sistemi basati su IA generativa e modelli linguistici di grandi dimensioni (LLM). Si verifica quando un utente malintenzionato crea un input specifico, spesso mascherato da testo innocuo, che induce l'intelligenza artificiale a sovrascrivere la sua programmazione originale, le barriere di sicurezza o le istruzioni di sistema. A differenza dei metodi di hacking tradizionali che sfruttano i bug del software nel codice, l'iniezione di prompt attacca l'interpretazione semantica del linguaggio da parte del modello. Manipolando la finestra contestuale, un aggressore può costringere il modello a rivelare dati sensibili, generare contenuti proibiti o eseguire azioni non autorizzate. Man mano che l'IA diventa più autonoma, comprendere questa vulnerabilità è fondamentale per mantenere una solida sicurezza dell'IA.
Sebbene inizialmente scoperto nei chatbot solo testo, il prompt injection sta diventando sempre più rilevante nella visione artificiale (CV) a causa dell'emergere di modelli multimodali. I moderni modelli di visione-linguaggio (VLM), come CLIP o i rilevatori a vocabolario aperto come YOLO, consentono agli utenti di definire gli obiettivi di rilevamento utilizzando descrizioni in linguaggio naturale (ad esempio, "trova lo zaino rosso").
In questi sistemi, il prompt di testo viene convertito in incorporamenti che il modello confronta con le caratteristiche visive . Un "inserimento di prompt visivo" può verificarsi se un aggressore presenta un'immagine contenente istruzioni di testo (come un cartello con la scritta "Ignora questo oggetto") che il componente di riconoscimento ottico dei caratteri (OCR)del modello legge e interpreta come un comando ad alta priorità. Questo crea un vettore di attacco unico in cui l'ambiente fisico stesso legge e interpreta come un comando ad alta priorità. Questo crea un vettore di attacco unico in cui l'ambiente fisico stesso funge da meccanismo di iniezione, mettendo in discussione l'affidabilità dei veicoli autonomi e dei sistemi di sorveglianza intelligenti .
Le implicazioni dell'iniezione tempestiva si estendono a vari settori in cui l'IA interagisce con input esterni:
È importante distinguere il prompt injection da termini simili nel panorama dell'apprendimento automatico:
Il codice seguente mostra come un prompt di testo definito dall'utente si interfaccia con un modello di visione a vocabolario aperto. In un'
applicazione sicura, il user_prompt richiederebbe una rigorosa sanificazione per prevenire tentativi di iniezione. Noi
utilizziamo il ultralytics pacchetto per caricare un modello in grado di comprendere le definizioni testuali.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
La difesa contro l'iniezione di prompt è un'area di ricerca molto attiva. Le tecniche includono il Reinforcement Learning from Human Feedback (RLHF) per addestrare i modelli a rifiutare istruzioni dannose e l'implementazione di difese "sandwich" in cui l'input dell'utente è racchiuso tra le istruzioni del sistema. Le organizzazioni che utilizzano Ultralytics per l'addestramento e l'implementazione possono monitorare i log di inferenza per detect modelli di prompt detect . Inoltre, il NIST AI Risk Management Framework fornisce linee guida per valutare e mitigare questi tipi di rischi nei sistemi implementati.