Descubra cómo la inyección de prompts explota las vulnerabilidades de la IA, impacta en la seguridad y aprenda estrategias para proteger los sistemas de IA de ataques maliciosos.
La inyección de prompt es una vulnerabilidad de seguridad crítica que afecta a los sistemas basados en grandes modelos lingüísticos (LLM) y otras tecnologías de IA generativa. Se produce cuando un usuario malintencionado crea una entrada específica -a menudo disfrazada de una consulta normal- que engaña al modelo de IA para que ignore sus instrucciones originales establecidas por el desarrollador y ejecute una instrucción no deseada. que engaña al modelo de IA para que ignore sus instrucciones originales y ejecute comandos no deseados. comandos no deseados. Al igual que la inyección SQL permite permite a los atacantes manipular bases de datos interfiriendo en las consultas del backend, la inyección puntual se dirige al Procesamiento del Lenguaje Natural (PLN). Procesamiento del Lenguaje Natural (PLN) (PLN), explotando el hecho de que muchos modelos modernos procesan datos de usuario e instrucciones del sistema dentro de la misma ventana contextual. ventana.
En una aplicación típica de IA, un desarrollador proporciona un "aviso del sistema" que define las reglas, la persona y los límites de seguridad del agente de IA. límites de seguridad del agente de IA. Sin embargo, como los LLM están diseñadas para seguir instrucciones con fluidez, pueden tener dificultades para distinguir entre la indicación autorizada del sistema y la entrada del usuario. Un ataque exitoso de inyección de comandos anula las barreras de seguridad del sistema, lo que potencialmente de seguridad del sistema, lo que puede provocar fugas de datos, acciones no autorizadas o la generación de contenido dañino. Esta amenaza está clasificada actualmente como una preocupación primaria en el OWASP Top 10 for LLM Applications, lo que pone de relieve su importancia en el panorama de la ciberseguridad.
Los ataques de inyección de prompts pueden manifestarse de diversas formas, desde bromas divertidas hasta graves violaciones de la seguridad.
Aunque en un principio se asoció a los modelos exclusivamente textuales, la inyección puntual es cada vez más relevante en visión por ordenador (CV) debido al auge de los modelos multimodales. Modelos de visión y lenguaje (VLM) como CLIP o o los detectores de vocabulario abierto permiten a los usuarios definir qué objetos deben buscarse mediante descripciones textuales.
Por ejemplo, en modelos como YOLO, las clases a se definen mediante mensajes de texto. Una entrada maliciosa podría manipular teóricamente el espacio de incrustación para para clasificar erróneamente los objetos o ignorar las amenazas.
El siguiente código demuestra cómo los mensajes de texto interactúan con un modelo de visión, que representa el punto de entrada en el que podrían producirse intentos de inyección. pueden producirse intentos de inyección:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es vital diferenciar la inyección rápida de otros términos en el ecosistema de la IA:
La defensa contra la inyección puntual requiere un enfoque de defensa en profundidad, ya que ninguna solución es infalible en la actualidad.
Las organizaciones deben consultar marcos como el NIST AI Risk Management Framework para implementar prácticas de seguridad integrales para sus despliegues de IA.