Domina el arte de la ingeniería de prompts para guiar modelos de IA como los LLM y obtener resultados precisos y de alta calidad en contenido, atención al cliente y más.
La ingeniería de prompts es el proceso estratégico de estructurar y optimizar el texto de entrada, conocido como prompts, para guiar eficazmente a los usuarios. eficazmente modelos de Inteligencia Artificial (IA) para generar resultados específicos de alta calidad. Aunque inicialmente se popularizó con el auge de los grandes modelos lingüísticos (LLM) como GPT-4, esta disciplina se ha convertido en una habilidad crítica para interactuar con diversos sistemas generativos. Implica comprender los matices de cómo un modelo interpreta el lenguaje, el contexto y las instrucciones para salvar la distancia entre la intención humana y la ejecución de la máquina. Seleccionando cuidadosamente las palabras, las restricciones de formato y el contexto, los usuarios pueden mejorar significativamente la precisión y la relevancia de las respuestas de la IA generativa sin necesidad de modificar el lenguaje. respuestas generativas de la IA sin necesidad de alterar los los parámetros subyacentes del modelo.
En esencia, la ingeniería de prontitud se basa en el principio de que los modelos de IA son sensibles a la formulación y la estructura de las entradas. entradas. Un aviso bien diseñado suele contener componentes específicos destinados a reducir la ambigüedad. Entre ellos se incluyen instrucciones explícitas, información de fondo relevante (contexto) y especificaciones de salida, como el formato. Por ejemplo, solicitar una respuesta en JSON o en una lista con viñetas. Entre las técnicas avanzadas se incluye el aprendizaje de pocos ejemplos, en el que el usuario proporciona ejemplos de los pares de entrada-salida deseados dentro de la solicitud para guiar el razonamiento del modelo. Otro método eficaz es de pensamiento, que anima al modelo a que anima al modelo a dividir los problemas complejos en pasos de razonamiento intermedios, mejorando el como se detalla en Investigación deGoogle de Google.
Aunque a menudo se asocia con la generación de textos, la ingeniería de avisos es cada vez más vital en visión por ordenador (CV). La moderna modelos multimodales y detectores de vocabulario abierto, como YOLO, permiten a los usuarios definir objetivos de detección de detección utilizando el lenguaje natural en lugar de identificadores de clase predefinidos. En este contexto, la "indicación" es el texto del objeto (por ejemplo, "casco rojo" frente a "casco"). Esta capacidad, a menudo denominada aprendizaje sin disparos, permite a los modelos detect objetos para los que no han sido explícitamente entrenados, simplemente procesando la relación semántica entre el texto y las características visuales.
El siguiente ejemplo muestra cómo se aplica la ingeniería de avisos mediante programación utilizando la función
ultralytics para definir dinámicamente clases para
detección de objetos:
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolo-world.pt")
# Use prompt engineering to define custom classes without retraining
# The model aligns these text descriptions with visual features
model.set_classes(["person in safety vest", "forklift", "cardboard box"])
# Run inference on an image to detect the prompted objects
results = model.predict("warehouse.jpg")
La utilidad de la ingeniería rápida se extiende a diversos sectores, potenciando la automatización y la creatividad:
Es importante diferenciar la ingeniería rápida de términos similares en el panorama del aprendizaje automático: