Entdecken Sie, wie Prompt-Injection-Angriffe KI-Schwachstellen ausnutzen, die Sicherheit beeinträchtigen, und lernen Sie Strategien kennen, um KI-Systeme vor böswilligen Angriffen zu schützen.
Prompt Injection ist eine kritische Sicherheitsschwachstelle, die Systeme betrifft, die auf Large Language Models (LLMs) und anderen generativen KI-Technologien aufbauen. Sie tritt auf, wenn ein böswilliger Benutzer eine bestimmte Eingabe - oft als normale Abfrage getarnt - erstellt. Abfrage getarnt -, die das KI-Modell dazu bringt, seine ursprünglichen, vom Entwickler festgelegten Anweisungen zu ignorieren und unbeabsichtigte Befehle auszuführen. Ähnlich wie bei der SQL-Injektion können Angreifer Datenbanken manipulieren können, indem sie in Backend-Abfragen eingreifen, zielt Prompt Injection auf die Verarbeitung natürlicher Sprache (NLP) Logik, wobei die Tatsache ausgenutzt wird, dass viele moderne Modelle Benutzerdaten und Systemanweisungen innerhalb desselben Kontextfensters verarbeiten. Fenster.
Bei einer typischen KI-Anwendung stellt der Entwickler eine "Systemaufforderung" bereit, die die Regeln, die Persona und die Sicherheitsgrenzen für den KI-Agenten definiert. Da LLMs jedoch darauf ausgelegt sind, Anweisungen fließend zu befolgen, kann es für sie schwierig sein, zwischen der maßgeblichen Systemaufforderung und den Eingaben des Benutzers zu unterscheiden. Ein erfolgreicher Prompt-Injection-Angriff setzt die Sicherheitsvorkehrungen des Systems außer Kraft und kann zu Datenlecks, unbefugten Aktionen oder der Erzeugung schädlicher Inhalte führen. Diese Bedrohung wird derzeit als als Hauptproblem in der OWASP Top 10 für LLM-Anwendungen eingestuft, was ihre Bedeutung in der Cybersicherheitslandschaft unterstreicht.
Prompt-Injection-Angriffe können sich auf verschiedene Weise manifestieren, von spielerischen Streichen bis hin zu ernsthaften Sicherheitsverletzungen.
Ursprünglich mit reinen Textmodellen in Verbindung gebracht, gewinnt die Prompt-Injektion in der Computer Vision (CV) aufgrund der zunehmenden Verbreitung von multimodaler Modelle. Vision-Language-Modelle (VLMs) wie CLIP oder Detektoren mit offenem Vokabular ermöglichen es dem Benutzer, anhand von Textbeschreibungen zu definieren, welche Objekte gefunden werden sollen.
In Modellen wie YOLO werden beispielsweise die zu erfassenden Klassen zu erkennenden Klassen durch Textaufforderungen definiert. Eine bösartige Eingabe könnte theoretisch den Einbettungsraum manipulieren, um Objekte falsch zu klassifizieren oder Bedrohungen zu ignorieren.
Der folgende Code veranschaulicht, wie Texteingabeaufforderungen mit einem Bildverarbeitungsmodell verbunden werden, das den Einstiegspunkt darstellt, an dem Injektionsversuche stattfinden könnten:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es ist wichtig, Prompt-Injektion von anderen Begriffen im KI-Ökosystem zu unterscheiden:
Der Schutz vor Soforteinspeisung erfordert einen umfassenden Ansatz, da keine einzelne Lösung derzeit narrensicher ist.
Organisationen sollten Rahmenwerke wie das NIST AI Risk Management Framework zur Implementierung umfassende Sicherheitspraktiken für ihre KI-Implementierungen zu implementieren.