Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Ingeniería de Prompts

Domina el arte de la ingeniería de prompts para guiar modelos de IA como los LLM y obtener resultados precisos y de alta calidad en contenido, atención al cliente y más.

La ingeniería de prompts es el proceso estratégico de estructurar y optimizar el texto de entrada, conocido como prompts, para guiar eficazmente a los usuarios. eficazmente modelos de Inteligencia Artificial (IA) para generar resultados específicos de alta calidad. Aunque inicialmente se popularizó con el auge de los grandes modelos lingüísticos (LLM) como GPT-4, esta disciplina se ha convertido en una habilidad crítica para interactuar con diversos sistemas generativos. Implica comprender los matices de cómo un modelo interpreta el lenguaje, el contexto y las instrucciones para salvar la distancia entre la intención humana y la ejecución de la máquina. Seleccionando cuidadosamente las palabras, las restricciones de formato y el contexto, los usuarios pueden mejorar significativamente la precisión y la relevancia de las respuestas de la IA generativa sin necesidad de modificar el lenguaje. respuestas generativas de la IA sin necesidad de alterar los los parámetros subyacentes del modelo.

Mecánica de las instrucciones eficaces

En esencia, la ingeniería de prontitud se basa en el principio de que los modelos de IA son sensibles a la formulación y la estructura de las entradas. entradas. Un aviso bien diseñado suele contener componentes específicos destinados a reducir la ambigüedad. Entre ellos se incluyen instrucciones explícitas, información de fondo relevante (contexto) y especificaciones de salida, como el formato. Por ejemplo, solicitar una respuesta en JSON o en una lista con viñetas. Entre las técnicas avanzadas se incluye el aprendizaje de pocos ejemplos, en el que el usuario proporciona ejemplos de los pares de entrada-salida deseados dentro de la solicitud para guiar el razonamiento del modelo. Otro método eficaz es de pensamiento, que anima al modelo a que anima al modelo a dividir los problemas complejos en pasos de razonamiento intermedios, mejorando el como se detalla en Investigación deGoogle de Google.

Relevancia en la visión artificial

Aunque a menudo se asocia con la generación de textos, la ingeniería de avisos es cada vez más vital en visión por ordenador (CV). La moderna modelos multimodales y detectores de vocabulario abierto, como YOLO, permiten a los usuarios definir objetivos de detección de detección utilizando el lenguaje natural en lugar de identificadores de clase predefinidos. En este contexto, la "indicación" es el texto del objeto (por ejemplo, "casco rojo" frente a "casco"). Esta capacidad, a menudo denominada aprendizaje sin disparos, permite a los modelos detect objetos para los que no han sido explícitamente entrenados, simplemente procesando la relación semántica entre el texto y las características visuales.

El siguiente ejemplo muestra cómo se aplica la ingeniería de avisos mediante programación utilizando la función ultralytics para definir dinámicamente clases para detección de objetos:

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolo-world.pt")

# Use prompt engineering to define custom classes without retraining
# The model aligns these text descriptions with visual features
model.set_classes(["person in safety vest", "forklift", "cardboard box"])

# Run inference on an image to detect the prompted objects
results = model.predict("warehouse.jpg")

Aplicaciones en el mundo real

La utilidad de la ingeniería rápida se extiende a diversos sectores, potenciando la automatización y la creatividad:

  • generación automatizada de contenidos: En marketing y medios de comunicación, los profesionales utilizan indicaciones detalladas para guiar a generadores de texto a imagen como Midjourney o Difusión estable. Una indicación específica que describa la iluminación, el estilo artístico y la composición permite a los diseñadores crear rápidamente prototipos de activos visuales, ahorrando tiempo en comparación con los métodos tradicionales de renderizado. en comparación con los métodos de renderizado tradicionales.
  • Atención al cliente inteligente: Las empresas despliegan para atender las consultas de los clientes. Los ingenieros elaboran "instrucciones del sistema" que definen la personalidad del bot (por ejemplo, "Usted es un útil asistente técnico"). técnico"), establecen límites para evitar alucinaciones y ordenan a la IA que recupere respuestas de una base de conocimientos específica. base de conocimientos.

Distinguir conceptos relacionados

Es importante diferenciar la ingeniería rápida de términos similares en el panorama del aprendizaje automático:

  • Ingeniería de consultas vs. Ajuste de consultas: La ingeniería de consultas implica la elaboración manual de consultas en lenguaje natural. En cambio, el ajuste de instrucciones es un mecanismo mecanismo eficiente que aprende incrustaciones ( vectores numéricos) durante la fase de entrenamiento para para optimizar las entradas del modelo, a menudo invisibles para el usuario humano.
  • Ingeniería rápida frente a ajuste fino: El ajuste fino actualiza permanentemente las ponderaciones del modelo mediante el entrenamiento en un conjunto de datos especializado. La ingeniería de avisos no cambia el modelo en sí, sólo optimiza la entrada durante la inferencia en tiempo real. la inferencia en tiempo real.
  • Prompt Engineering frente a RAG: Retrieval-Augmented Generation (RAG) es una arquitectura de sistema que obtiene datos externos para fundamentar la respuesta del modelo. respuesta del modelo. La ingeniería de avisos es la técnica utilizada dentro de RAG para formatear correctamente los datos recuperados y presentarlos al LLM para su procesamiento. y presentarlos al LLM para su procesamiento.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora