Узнайте, как внедрение запросов эксплуатирует уязвимости ИИ, влияет на безопасность, и изучите стратегии защиты систем ИИ от вредоносных атак.
Инъекция в подсказку - критическая уязвимость безопасности, затрагивающая системы, построенные на основе Большие языковые модели (LLM) и другие генеративных технологий искусственного интеллекта. Она возникает, когда злоумышленник подготавливает специальный ввод, часто замаскированный под обычный запрос, что заставляет модель искусственного интеллекта игнорировать исходные инструкции разработчика и выполнять непредусмотренные команды. Подобно тому, как SQL-инъекции позволяют злоумышленникам манипулировать базами данных, вмешиваясь в запросы бэкэнда, инъекции prompt нацелены на Обработка естественного языка (NLP) логики, используя тот факт, что многие современные модели обрабатывают пользовательские данные и системные инструкции в одном и том же контекстном окно.
В типичном приложении ИИ разработчик предоставляет "системную подсказку", которая определяет правила, персоны и границы безопасности для агента ИИ. Однако, поскольку LLM предназначены для свободного следования инструкциям, им бывает трудно отличить авторитетную подсказку системы и вводом пользователя. Успешная атака с внедрением подсказки преодолевает защитные барьеры системы, что потенциально может Это может привести к утечке данных, несанкционированным действиям или созданию вредоносного контента. В настоящее время эта угроза считается как главная проблема в OWASP Top 10 for LLM Applications, что подчеркивает ее значимость в сфере кибербезопасности.
Атаки с использованием инъекций могут проявляться по-разному, от игривых розыгрышей до серьезных нарушений безопасности.
Изначально ассоциируясь с моделями, использующими только текст, введение подсказок становится все более актуальным в компьютерном зрении (КЗ) в связи с появлением мультимодальных моделей. Модели на языке зрения (VLM) такие как CLIP или детекторы с открытым словарным запасом позволяют пользователям определять, какие объекты нужно найти, используя текстовые описания.
Например, в таких моделях, как YOLO, классы, которые необходимо обнаружить. определяются с помощью текстовых подсказок. Вредоносный ввод теоретически может манипулировать пространством встраивания, чтобы неправильно классифицировать объекты или игнорировать угрозы.
Следующий код демонстрирует, как текстовые подсказки взаимодействуют с моделью зрения, представляющей собой точку входа, где попытки инъекции:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Очень важно отличать оперативное введение от других терминов в экосистеме ИИ:
Для защиты от оперативных инъекций необходим комплексный подход, поскольку ни одно решение не является надежным.
Организациям следует обратиться к таким рамочным программам, как NIST AI Risk Management Framework для внедрения для внедрения комплексных методов обеспечения безопасности при развертывании ИИ.