Glosario

Ingeniería Prompt

Domine el arte de la ingeniería de avisos para guiar modelos de IA como los LLM para obtener resultados precisos y de alta calidad en contenidos, atención al cliente y mucho más.

La ingeniería de prompts es el arte y la ciencia de diseñar entradas eficaces (prompts) para guiar a los modelos de Inteligencia Artificial (IA), en particular a los Grandes Modelos Lingüísticos (LLM), hacia la generación de los resultados deseados. Es análogo a ser un hábil comunicador con una IA, sabiendo exactamente qué decir y cómo decirlo para obtener la mejor respuesta posible. Esta práctica es crucial porque el rendimiento, la relevancia y la calidad de los resultados de un modelo de IA son muy sensibles a la forma en que se formula una consulta. Una ingeniería de consultas eficaz permite a los usuarios aprovechar todo el potencial de los potentes modelos de base para una amplia gama de tareas.

Cómo funciona Prompt Engineering

El núcleo de la ingeniería de instrucciones consiste en estructurar una entrada que proporcione un contexto claro y suficiente para el modelo. Mientras que una pregunta sencilla puede dar lugar a una respuesta básica, un aviso bien diseñado puede controlar el tono, el formato y la complejidad. Los componentes clave de una pregunta avanzada pueden incluir:

  • Instrucción: Una directiva clara y específica que indica al modelo qué tarea debe realizar (por ejemplo, "Resuma el siguiente artículo en tres viñetas").
  • Contexto: Proporcionar información de fondo o datos relevantes que el modelo debe utilizar para informar su respuesta.
  • Persona: Asignar un papel a la IA, que influye en el tono y el estilo del resultado (por ejemplo, "Actúa como un analista financiero experto").
  • Formato: Especificación de la estructura deseada de la salida, como una lista, un objeto JSON o un estilo de escritura específico.
  • Ejemplos: Incluir ejemplos del formato de entrada y salida deseado, una técnica conocida como aprendizaje de pocos disparos, ayuda a guiar la respuesta del modelo. En la Prompting Guide (en inglés) encontrará un recurso completo sobre estas técnicas.

Aplicaciones reales

  1. Automatización de la atención al cliente: Para garantizar la coherencia y precisión de la marca, una empresa puede utilizar la ingeniería de instrucciones para guiar su chatbot de asistencia. Un aviso puede indicar a la IA que adopte un tono amable y servicial, que utilice una base de conocimientos interna para responder a las preguntas sobre productos y que defina un protocolo claro para saber cuándo se debe derivar una conversación a un agente humano. De este modo, se controla el comportamiento de la IA y se evita que proporcione información incorrecta o que interactúe con los clientes de una forma que no se corresponde con la marca.

  2. Generación creativa de contenidos: En los modelos de conversión de texto en imagen como Midjourney o DALL-E 3 de OpenAI, el mensaje es la principal herramienta de creación. Una pregunta simple como "una foto de un coche" producirá un resultado genérico. Sin embargo, un mensaje detallado como "Un coche deportivo rojo de época de los años 60 circulando a toda velocidad por una autopista costera al atardecer, estilo fotorrealista, iluminación cinematográfica, resolución 8K" proporciona instrucciones específicas sobre el tema, el escenario, el estilo y la calidad, dando como resultado una imagen altamente personalizada y visualmente impactante.

Relevancia en visión por ordenador

Aunque se originó en el Procesamiento del Lenguaje Natural (PLN), la ingeniería de prontitud es cada vez más relevante en la Visión por Computador (VC). Esto se debe al desarrollo de modelos multimodales capaces de procesar simultáneamente texto e imágenes. Modelos como CLIP y detectores de vocabulario abierto como YOLO-World pueden realizar tareas como la detección de objetos a partir de descripciones de texto arbitrarias. Para estos modelos, la elaboración de una indicación textual eficaz (por ejemplo, "detectar todas las 'bicicletas' pero ignorar las 'motocicletas'") es una forma de ingeniería de indicaciones crucial para guiar estos modelos de lenguaje visual. Plataformas como Ultralytics HUB facilitan la interacción con varios modelos, donde la definición de tareas a través de interfaces puede beneficiarse de los principios de la ingeniería de instrucciones.

Ingeniería Prompt frente a conceptos afines

Es importante distinguir la ingeniería rápida de otros conceptos de aprendizaje automático:

  • Puesta a punto: Consiste en actualizar las ponderaciones de un modelo continuando el proceso de entrenamiento en un nuevo conjunto de datos. En cambio, la ingeniería de pronóstico no modifica el modelo en sí, sino que orienta el comportamiento del modelo existente en el momento de la inferencia.
  • Prompt Tuning: Se trata de un método de ajuste fino eficaz en función de los parámetros (PEFT ) que consiste en aprender un pequeño conjunto de "avisos suaves" que se añaden a la entrada. Automatiza la creación de avisos mediante la formación, mientras que la ingeniería de avisos es el proceso manual de elaboración de "avisos duros" basados en texto.
  • Estimulación de la cadena de pensamiento (CoT): CoT es una técnica específica de ingeniería de instrucciones en la que se añade una instrucción como "piensa paso a paso". Esto anima al modelo a dividir los problemas complejos en pasos de razonamiento intermedios, lo que a menudo conduce a resultados más precisos, como se detalla en el documento de investigación original de Google AI.
  • Encadenamiento: Esta técnica consiste en dividir una tarea compleja en varias instrucciones secuenciales, en las que el resultado de un paso es la entrada para el siguiente. La ingeniería de instrucciones es la práctica más amplia de diseñar eficazmente cada una de esas instrucciones individuales. Los marcos como LangChain están diseñados para orquestar estas cadenas.
  • Generación mejorada por recuperación (RAG): RAG es un sistema que mejora una consulta recuperando primero los datos pertinentes de una base de conocimientos externa. En un sistema RAG, la ingeniería de consultas es fundamental para formular correctamente tanto la consulta inicial como la consulta final, que combina la pregunta del usuario con la información recuperada.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles