Erfahren Sie, wie Prompt Injection LLMs und multimodale Modelle ausnutzt. Entdecken Sie Risiken in der Bildverarbeitung, Beispiele aus der Praxis und Strategien zur Risikominderung für die Sicherheit von KI.
Prompt-Injection ist eine Sicherheitslücke, die vor allem Systeme betrifft, die auf generativer KI und großen Sprachmodellen (LLMs) basieren. Sie tritt auf, wenn ein böswilliger Benutzer eine bestimmte Eingabe erstellt – oft getarnt als harmloser Text –, die die künstliche Intelligenz dazu verleitet, ihre ursprüngliche Programmierung, Sicherheitsvorkehrungen oder Systemanweisungen zu überschreiben. Im Gegensatz zu herkömmlichen Hacking-Methoden, die Softwarefehler im Code ausnutzen, greift Prompt-Injection die semantische Interpretation von Sprache durch das Modell an. Durch Manipulation des Kontextfensters kann ein Angreifer das Modell dazu zwingen, sensible Daten preiszugeben, verbotene Inhalte zu generieren oder unbefugte Aktionen auszuführen. Da KI immer autonomer wird, ist das Verständnis dieser Schwachstelle entscheidend für die Aufrechterhaltung einer robusten KI-Sicherheit.
Ursprünglich in rein textbasierten Chatbots entdeckt, gewinnt die Prompt-Injektion aufgrund des Aufkommens multimodaler Modelle zunehmend an Bedeutung in der Computer Vision (CV). Moderne Vision-Language-Modelle (VLMs) wie CLIP oder Detektoren mit offenem Vokabular wie YOLO ermöglichen es Benutzern , Erkennungsziele mithilfe von Beschreibungen in natürlicher Sprache zu definieren (z. B. „Finde den roten Rucksack“).
In diesen Systemen wird die Textanweisung in Einbettungen umgewandelt, die das Modell mit visuellen Merkmalen vergleicht. Eine „visuelle Prompt-Injektion” kann auftreten, wenn ein Angreifer ein Bild mit Textanweisungen (z. B. ein Schild mit der Aufschrift „Ignoriere dieses Objekt”) präsentiert, das vom Optical Character Recognition (OCR)-Komponente des Modells als Befehl mit hoher Priorität liest und interpretiert. Dadurch entsteht ein einzigartiger Angriffsvektor, bei dem die physische Umgebung selbst als Injektionsmechanismus fungiert, was die Zuverlässigkeit von autonomen Fahrzeugen und intelligenten Überwachungssystemen in Frage stellt.
Die Auswirkungen der sofortigen Injektion erstrecken sich über verschiedene Branchen, in denen KI mit externen Eingaben interagiert:
Es ist wichtig, die sofortige Injektion von ähnlichen Begriffen im Bereich des maschinellen Lernens zu unterscheiden:
Der folgende Code zeigt, wie eine benutzerdefinierte Textabfrage mit einem Vision-Modell mit offenem Vokabular zusammenwirkt. In einer
sicheren Anwendung wird die user_prompt würde eine strenge Desinfektion erfordern, um Injektionsversuche zu verhindern. Wir
verwenden die ultralytics Paket zum Laden eines Modells, das Textdefinitionen verstehen kann.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
Die Abwehr von Prompt-Injection ist ein aktives Forschungsgebiet. Zu den Techniken gehören Reinforcement Learning from Human Feedback (RLHF) , um Modelle darauf zu trainieren, schädliche Anweisungen abzulehnen, und die Implementierung von „Sandwich“-Abwehrmechanismen, bei denen Benutzereingaben zwischen Systemanweisungen eingeschlossen werden. Unternehmen, die die Ultralytics für Training und Bereitstellung nutzen, können Inferenzprotokolle überwachen , um detect Prompt-Muster detect . Darüber hinaus bietet das NIST AI Risk Management Framework Richtlinien zur Bewertung und Minderung dieser Art von Risiken in bereitgestellten Systemen.