Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Ingeniería de Prompts

Domina la ingeniería de prompts para IA y visión artificial. Aprende a optimizar las entradas para modelos LLM y modelos multimodales como Ultralytics para obtener resultados superiores.

La ingeniería de prompts es el proceso estratégico de diseñar, refinar y optimizar el texto de entrada para guiar los modelos de inteligencia artificial (IA) hacia la producción de resultados precisos, relevantes y de alta calidad. Tras ganar protagonismo inicialmente con el auge de los grandes modelos de lenguaje (LLM) como GPT-4, esta disciplina se ha convertido en una habilidad fundamental para interactuar con sistemas de IA generativa en diversas modalidades, incluidos texto, imagen y vídeo. En lugar de alterar los pesos subyacentes del modelo mediante un nuevo entrenamiento, la ingeniería de prompts aprovecha los conocimientos existentes del modelo enmarcando la tarea de la forma que el sistema puede entender mejor, salvando la brecha entre la intención humana y la ejecución de la máquina.

La mecánica de las indicaciones eficaces

En esencia, la ingeniería de prompts se basa en comprender cómo los modelos fundamentales procesan el contexto y las instrucciones. Un prompt bien construido reduce la ambigüedad al proporcionar restricciones explícitas, formatos de salida deseados (como JSON o Markdown) e información de fondo relevante . Los profesionales avanzados utilizan técnicas como el aprendizaje con pocos ejemplos, en el que el usuario proporciona unos pocos ejemplos de pares de entrada-salida dentro del prompt para demostrar el patrón deseado.

Otra estrategia eficaz es la indicación de cadena de pensamiento, que anima al modelo a desglosar tareas de razonamiento complejas en pasos intermedios. Esto mejora significativamente el rendimiento en consultas con un alto contenido lógico. Además, optimizar el uso de la ventana de contexto—el límite de la cantidad de texto que un modelo puede procesar a la vez— es crucial para mantener la coherencia en interacciones largas. Los recursos externos, como la guía de OpenAI sobre el diseño de indicaciones, enfatizan la importancia del refinamiento iterativo para manejar eficazmente los casos extremos.

Relevancia en la visión artificial

Aunque a menudo se asocia con el texto, la ingeniería de prompts es cada vez más importante en la visión por ordenador (CV). Los modernos modelos multimodales y los detectores de vocabulario abierto, como YOLO, permiten a los usuarios definir los objetivos de detección utilizando el procesamiento del lenguaje natural (NLP) en lugar de identificadores numéricos de clase predefinidos.

En este contexto, la «indicación» es una descripción textual del objeto (por ejemplo, «persona con casco rojo »). Esta capacidad, conocida como aprendizaje sin disparo, permite a los sistemas detect objetos para los que no han sido entrenados explícitamente, aprovechando las asociaciones aprendidas entre las características visuales y las incrustaciones semánticas . Para entornos de producción de alta velocidad en los que las clases son fijas, los desarrolladores podrían eventualmente pasar de modelos con indicaciones a modelos eficientes y reentrenados como YOLO26, pero la ingeniería de indicaciones sigue siendo la clave para la rápida creación de prototipos y la flexibilidad.

Aplicaciones en el mundo real

La ingeniería rápida impulsa el valor en diversos sectores al permitir una automatización flexible e inteligente:

  • Análisis visual track : en IA en el comercio minorista, los gerentes de tienda utilizan modelos de visión basados en indicaciones para buscar artículos específicos sin intervención técnica. Se puede indicar al sistema que rastree «estantes vacíos» un día y «productos mal colocados» al día siguiente. Esta flexibilidad permite a las empresas adaptar sus sistemas de detección de objetos a las tendencias estacionales de forma inmediata.
  • Creación automatizada de contenido: Los equipos de marketing se basan en indicaciones detalladas para guiar generadores de texto a imagen como Stable Diffusion o Midjourney. Mediante la ingeniería de indicaciones que especifican la iluminación, el estilo artístico y la composición, los diseñadores pueden generar rápidamente recursos visuales.
  • Recuperación inteligente de conocimientos: En la atención al cliente, los ingenieros diseñan «indicaciones del sistema» que instruyen a los chatbots para que respondan a las consultas utilizando únicamente datos verificados de la empresa. Este es un componente clave de la generación aumentada por recuperación (RAG), que garantiza que la IA mantenga una personalidad útil y evite alucinaciones en los LLM.

Aplicación con Ultralytics

El siguiente ejemplo muestra cómo se aplica la ingeniería de avisos mediante programación utilizando la función ultralytics paquete. Aquí utilizamos un modelo YOLO que acepta indicaciones de texto para definir qué objetos buscar de forma dinámica, en contraste con modelos estándar como YOLO26 que utilizan listas de clases fijas.

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

Distinguir conceptos relacionados

Para implementar eficazmente soluciones de IA a través de la Ultralytics , es importante distinguir la ingeniería de prompts de técnicas de optimización similares:

  • Ingeniería de indicaciones frente a ajuste de indicaciones: La ingeniería de indicaciones consiste en crear manualmente entradas de lenguaje natural. Por el contrario, el ajuste de indicaciones es un método de ajuste eficiente en parámetros (PEFT) que aprende «indicaciones suaves» (incrustaciones vectoriales continuas) durante una fase de entrenamiento. Estas indicaciones suaves son optimizaciones matemáticas invisibles para el usuario humano.
  • Ingeniería de prompts frente a ajuste fino: El ajuste fino actualiza permanentemente los pesos de un modelo utilizando un conjunto de datos de entrenamiento específico para especializarlo en una tarea. La ingeniería de prompts no cambia el modelo en sí, solo optimiza la entrada durante la inferencia en tiempo real.
  • Ingeniería de indicaciones frente a inyección de indicaciones: Mientras que la ingeniería es constructiva, la inyección de indicaciones es una vulnerabilidad de seguridad en la que entradas maliciosas manipulan el modelo para que ignore sus restricciones de seguridad. Garantizar la seguridad de la IA requiere una defensa sólida contra este tipo de indicaciones adversas.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora