Domine el arte de la ingeniería de avisos para guiar modelos de IA como los LLM para obtener resultados precisos y de alta calidad en contenidos, atención al cliente y mucho más.
La ingeniería de prompts es el arte y la ciencia de diseñar entradas eficaces (prompts) para guiar a los modelos de Inteligencia Artificial (IA), en particular a los Grandes Modelos Lingüísticos (LLM), hacia la generación de los resultados deseados. Es análogo a ser un hábil comunicador con una IA, sabiendo exactamente qué decir y cómo decirlo para obtener la mejor respuesta posible. Esta práctica es crucial porque el rendimiento, la relevancia y la calidad de los resultados de un modelo de IA son muy sensibles a la forma en que se formula una consulta. Una ingeniería de consultas eficaz permite a los usuarios aprovechar todo el potencial de los potentes modelos de base para una amplia gama de tareas.
El núcleo de la ingeniería de instrucciones consiste en estructurar una entrada que proporcione un contexto claro y suficiente para el modelo. Mientras que una pregunta sencilla puede dar lugar a una respuesta básica, un aviso bien diseñado puede controlar el tono, el formato y la complejidad. Los componentes clave de una pregunta avanzada pueden incluir:
Automatización de la atención al cliente: Para garantizar la coherencia y precisión de la marca, una empresa puede utilizar la ingeniería de instrucciones para guiar su chatbot de asistencia. Un aviso puede indicar a la IA que adopte un tono amable y servicial, que utilice una base de conocimientos interna para responder a las preguntas sobre productos y que defina un protocolo claro para saber cuándo se debe derivar una conversación a un agente humano. De este modo, se controla el comportamiento de la IA y se evita que proporcione información incorrecta o que interactúe con los clientes de una forma que no se corresponde con la marca.
Generación creativa de contenidos: En los modelos de conversión de texto en imagen como Midjourney o DALL-E 3 de OpenAI, el mensaje es la principal herramienta de creación. Una pregunta simple como "una foto de un coche" producirá un resultado genérico. Sin embargo, un mensaje detallado como "Un coche deportivo rojo de época de los años 60 circulando a toda velocidad por una autopista costera al atardecer, estilo fotorrealista, iluminación cinematográfica, resolución 8K" proporciona instrucciones específicas sobre el tema, el escenario, el estilo y la calidad, dando como resultado una imagen altamente personalizada y visualmente impactante.
Aunque se originó en el Procesamiento del Lenguaje Natural (PLN), la ingeniería de prontitud es cada vez más relevante en la Visión por Computador (VC). Esto se debe al desarrollo de modelos multimodales capaces de procesar simultáneamente texto e imágenes. Modelos como CLIP y detectores de vocabulario abierto como YOLO-World pueden realizar tareas como la detección de objetos a partir de descripciones de texto arbitrarias. Para estos modelos, la elaboración de una indicación textual eficaz (por ejemplo, "detectar todas las 'bicicletas' pero ignorar las 'motocicletas'") es una forma de ingeniería de indicaciones crucial para guiar estos modelos de lenguaje visual. Plataformas como Ultralytics HUB facilitan la interacción con varios modelos, donde la definición de tareas a través de interfaces puede beneficiarse de los principios de la ingeniería de instrucciones.
Es importante distinguir la ingeniería rápida de otros conceptos de aprendizaje automático: