Saiba como a injeção imediata explora LLMs e modelos multimodais. Explore os riscos na visão computacional, exemplos do mundo real e estratégias de mitigação para a segurança da IA.
A injeção de prompt é uma vulnerabilidade de segurança que afeta principalmente sistemas construídos com base em IA generativa e grandes modelos de linguagem (LLMs). Ela ocorre quando um utilizador mal-intencionado cria uma entrada específica — muitas vezes disfarçada como texto benigno — que engana a inteligência artificial para substituir sua programação original, proteções de segurança ou instruções do sistema. Ao contrário dos métodos tradicionais de hacking que exploram bugs de software no código, a injeção de prompt ataca a interpretação semântica da linguagem do modelo. Ao manipular a janela de contexto, um invasor pode forçar o modelo a revelar dados confidenciais, gerar conteúdo proibido ou realizar ações não autorizadas. À medida que a IA se torna mais autónoma, compreender essa vulnerabilidade é fundamental para manter uma segurança robusta da IA.
Embora inicialmente descoberta em chatbots apenas de texto, a injeção de prompts está a tornar-se cada vez mais relevante na Visão Computacional (CV) devido ao surgimento de Modelos Multimodais. Os modernos modelos de visão-linguagem (VLMs), como CLIP ou detetores de vocabulário aberto como YOLO, permitem que os utilizadores definam alvos de deteção usando descrições em linguagem natural (por exemplo, "encontre a mochila vermelha").
Nesses sistemas, o prompt de texto é convertido em embeddings que o modelo compara com características visuais . Uma "injeção de prompt visual" pode ocorrer se um invasor apresentar uma imagem contendo instruções de texto (como um sinal dizendo "Ignore este objeto") que o componente de Reconhecimento Ótico de Caracteres (OCR) do modelo lê e interpreta como um comando de alta prioridade. Isso cria um vetor de ataque único, em que o próprio ambiente físico atua como mecanismo de injeção, desafiando a confiabilidade dos veículos autônomos e dos sistemas de vigilância inteligente .
As implicações da injeção imediata se estendem por vários setores em que a IA interage com entradas externas:
É importante diferenciar a injeção imediata de termos semelhantes no panorama da aprendizagem automática:
O código a seguir demonstra como um prompt de texto definido pelo utilizador interage com um modelo de visão de vocabulário aberto. Em uma
aplicação segura, o user_prompt precisaria de uma higienização rigorosa para evitar tentativas de injeção. Nós
usamos o ultralytics pacote para carregar um modelo capaz de compreender definições de texto.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
A defesa contra injeção de prompts é uma área ativa de pesquisa. As técnicas incluem Aprendizagem por Reforço a partir de Feedback Humano (RLHF) para treinar modelos a recusar instruções prejudiciais e implementar defesas "sanduíche", nas quais a entrada do utilizador é enquadrada entre instruções do sistema. As organizações que utilizam Ultralytics para treino e implementação podem monitorizar os registos de inferência para detect padrões de prompt detect . Além disso, a Estrutura de Gestão de Risco de IA do NIST fornece diretrizes para avaliar e mitigar esses tipos de riscos em sistemas implementados.