Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Engenharia de Prompt

Domine a engenharia de prompts para IA e visão computacional. Aprenda a otimizar entradas para LLMs e modelos multimodais, como Ultralytics , para obter resultados superiores.

A engenharia de prompts é o processo estratégico de projetar, refinar e otimizar o texto de entrada para orientar os modelos de Inteligência Artificial (IA) na produção de resultados precisos, relevantes e de alta qualidade. Inicialmente ganhando destaque com o surgimento dos grandes modelos de linguagem (LLMs), como o GPT-4, essa disciplina evoluiu para uma habilidade crítica para interagir com sistemas de IA generativa em várias modalidades, incluindo texto, imagem e vídeo. Em vez de alterar os pesos do modelo subjacente por meio de retreinamento, a engenharia de prompts aproveita o conhecimento existente do modelo, enquadrando a tarefa de uma forma que o sistema possa entender melhor, preenchendo a lacuna entre a intenção humana e a execução da máquina.

A mecânica do prompt eficaz

Na sua essência, a engenharia de prompts depende da compreensão de como os modelos básicos processam o contexto e as instruções. Um prompt bem construído reduz a ambiguidade, fornecendo restrições explícitas, formatos de saída desejados (como JSON ou Markdown) e informações contextuais relevantes . Profissionais avançados utilizam técnicas como aprendizagem com poucos exemplos, em que o utilizador fornece alguns exemplos de pares de entrada-saída dentro do prompt para demonstrar o padrão desejado.

Outra estratégia poderosa é a sugestão de cadeia de pensamento, que incentiva o modelo a dividir tarefas de raciocínio complexas em etapas intermediárias. Isso melhora significativamente o desempenho em consultas com grande carga lógica. Além disso, otimizar o uso da janela de contexto— o limite da quantidade de texto que um modelo pode processar de uma só vez — é crucial para manter a coerência em interações longas. Recursos externos, como o guia da OpenAI sobre design de prompts, enfatizam a importância do refinamento iterativo para lidar com casos extremos de forma eficaz.

Relevância em Visão Computacional

Embora frequentemente associada ao texto, a engenharia de prompts é cada vez mais vital na Visão Computacional (CV). Modelos multimodais modernos e detectores de vocabulário aberto, como YOLO, permitem que os utilizadores definam alvos de detecção usando processamento de linguagem natural (NLP) em vez de IDs de classe numéricas pré-definidas.

Neste contexto, o «prompt» é uma descrição textual do objeto (por exemplo, «pessoa usando um capacete vermelho »). Essa capacidade, conhecida como aprendizagem zero-shot, permite que os sistemas detect em objetos nos quais não foram explicitamente treinados, aproveitando as associações aprendidas entre características visuais e incorporações semânticas . Para ambientes de produção de alta velocidade onde as classes são fixas, os desenvolvedores podem eventualmente fazer a transição de modelos prompt para modelos eficientes e retreinados, como o YOLO26, mas a engenharia de prompt continua sendo a chave para a rápida prototipagem e flexibilidade.

Aplicações no Mundo Real

A engenharia rápida gera valor em diversos setores, permitindo uma automação flexível e inteligente:

  • Análise visual track âmica: Na IA no retalho, os gerentes de loja usam modelos de visão baseados em comandos para procurar itens específicos sem intervenção técnica. Um sistema pode ser acionado para rastrear "prateleiras vazias" num dia e "produtos extraviados" no dia seguinte. Essa flexibilidade permite que as empresas adaptem seus sistemas de detecção de objetos às tendências sazonais imediatamente.
  • Criação automatizada de conteúdo: as equipas de marketing contam com prompts detalhados para orientar geradores de texto para imagem, como Stable Diffusion ou Midjourney. Ao criar prompts que especificam iluminação, estilo artístico e composição, os designers podem gerar rapidamente recursos visuais.
  • Recuperação inteligente de conhecimento: No suporte ao cliente, os engenheiros projetam "solicitações do sistema" que instruem os chatbots a responder às perguntas usando apenas dados verificados da empresa. Esse é um componente essencial da Geração Aumentada por Recuperação (RAG), garantindo que a IA mantenha uma personalidade útil, evitando alucinações nos LLMs.

Implementação com Ultralytics

O exemplo a seguir demonstra como o prompt engineering é aplicado programaticamente usando o ultralytics pacote. Aqui, usamos um modelo YOLO que aceita prompts de texto para definir quais objetos procurar dinamicamente, contrastando com modelos padrão como YOLO26 que utilizam listas de turmas fixas.

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

Distinguir conceitos relacionados

Para implementar eficazmente soluções de IA através da Ultralytics , é importante distinguir a engenharia de prompts de técnicas de otimização semelhantes:

  • Engenharia de prompts vs. Ajuste de prompts: A engenharia de prompts envolve a criação manual de entradas em linguagem natural. Em contrapartida, o ajuste de prompts é um método de ajuste fino eficiente em termos de parâmetros (PEFT) que aprende «prompts suaves» (incorporações vetoriais contínuas) durante uma fase de treino. Esses prompts suaves são otimizações matemáticas invisíveis para o utilizador humano.
  • Engenharia de prompt vs. ajuste fino: O ajuste fino atualiza permanentemente os pesos de um modelo usando um conjunto de dados de treino específico para especializá-lo para uma tarefa. A engenharia de prompt não altera o modelo em si; apenas otimiza a entrada durante a inferência em tempo real.
  • Engenharia de prompts vs. Injeção de prompts: Enquanto a engenharia é construtiva, a injeção de prompts é uma vulnerabilidade de segurança em que entradas maliciosas manipulam o modelo para ignorar as suas restrições de segurança. Garantir a segurança da IA requer uma defesa robusta contra tais prompts adversários.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora