Prompt Chaining
Aprende cómo el encadenamiento de prompts divide las tareas complejas de IA en flujos de trabajo confiables. Explora cómo integrar Ultralytics YOLO26 con LLMs para crear agentes de IA avanzados.
El encadenamiento de prompts es un patrón arquitectónico avanzado en el desarrollo de Inteligencia Artificial (IA) donde una tarea compleja se descompone en una secuencia de subtareas más pequeñas y manejables. En este flujo de trabajo, la salida de un paso —a menudo generada por un Modelo de Lenguaje Extenso (LLM) o un sistema de visión artificial— sirve como entrada para el paso posterior. A diferencia de un prompt monolítico único que intenta resolver un problema multifacético de una sola vez, el encadenamiento permite a los desarrolladores construir aplicaciones más fiables, comprobables y capaces. Este enfoque modular es esencial para crear Agentes de IA sofisticados que puedan razonar, navegar por la web o interactuar con entornos físicos.
Link to this sectionLa mecánica del encadenamiento#
En esencia, el encadenamiento de prompts aborda las limitaciones de las ventanas de contexto y las capacidades de razonamiento en los Modelos Fundacionales. Cuando se le pide a un modelo que realice demasiadas operaciones distintas en una sola solicitud (por ejemplo, "Analiza esta imagen, extrae el texto, tradúcelo al español y formatéalo como una factura JSON"), la probabilidad de error aumenta. Al dividir esto en una tubería, los desarrolladores pueden verificar la precisión de cada etapa.
Las cadenas efectivas suelen utilizar "código de pegamento" escrito en Python o gestionado por bibliotecas de orquestación como LangChain para manejar la transformación de datos entre pasos. Esto permite la integración de tecnologías dispares, como la combinación de la agudeza visual de la Detección de Objetos con la fluidez lingüística de los modelos de texto generativo.
Link to this sectionAplicaciones en el mundo real#
El encadenamiento de prompts es particularmente potente a la hora de cerrar la brecha entre diferentes modalidades de datos, permitiendo que los Modelos Multimodales funcionen en entornos industriales y comerciales dinámicos.
-
Informes visuales automatizados: En la Fabricación Inteligente, un sistema de control de calidad puede encadenar un modelo de visión con un LLM. Primero, un modelo de alta velocidad como Ultralytics YOLO26 escanea los componentes en una línea de montaje. La salida estructurada (por ejemplo, "Clase: Lata_Abollada, Confianza: 0.92") se convierte en una cadena de texto. Este texto se pasa luego a un modelo de lenguaje con un prompt como "Redacta una solicitud de mantenimiento basada en este defecto", generando un correo electrónico legible para el jefe de planta.
-
Atención al cliente consciente del contexto: Los chatbots inteligentes a menudo utilizan el encadenamiento para navegar por consultas complejas de los usuarios. El primer eslabón de la cadena podría usar Procesamiento del Lenguaje Natural (NLP) para clasificar la intención del usuario. Si la intención es técnica, el sistema activa un flujo de trabajo de Generación Aumentada por Recuperación (RAG): genera embeddings para la consulta, busca en una base de datos vectorial documentación y, finalmente, le indica a un LLM que sintetice los fragmentos recuperados en una respuesta útil.
Link to this sectionEjemplo de código de visión a lenguaje#
El siguiente ejemplo demuestra el primer "eslabón" de una cadena: utilizar Visión Artificial (CV) para generar datos estructurados que sirven como contexto para un prompt posterior.
from ultralytics import YOLO
# Load the YOLO26 model (natively end-to-end and highly efficient)
model = YOLO("yolo26n.pt")
# Step 1: Run inference to 'see' the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Step 2: Format visual detections into a natural language string
det_names = [model.names[int(c)] for c in results[0].boxes.cls]
prompt_context = f"The scene contains: {', '.join(det_names)}. Please describe the likely activity."
# The 'prompt_context' variable is now ready to be sent to an LLM API
print(prompt_context)Link to this sectionDistinguir conceptos relacionados#
Para implementar arquitecturas de Aprendizaje Automático (ML) efectivas, resulta útil diferenciar el encadenamiento de prompts de términos similares en el panorama de la IA:
- Vs. Prompting de Cadena de Pensamiento: La Cadena de Pensamiento (CoT) es una técnica utilizada dentro de un único prompt para animar al modelo a "mostrar su trabajo" (por ejemplo, "Piensa paso a paso"). El encadenamiento de prompts implica múltiples llamadas a la API distintas donde la entrada al paso B depende de la salida del paso A.
- Vs. Ingeniería de Prompts: La ingeniería de prompts es la disciplina más amplia de optimizar las entradas de texto para obtener un mejor rendimiento del modelo. El encadenamiento es un patrón de ingeniería específico que se centra en el flujo secuencial de operaciones y el control lógico.
- Vs. Ajuste de Prompts: El ajuste de prompts es un método de Optimización de Modelos que actualiza parámetros aprendibles (prompts blandos) durante una fase de entrenamiento. El encadenamiento de prompts ocurre completamente durante la Inferencia en Tiempo Real y no altera los Pesos del Modelo.
Aprovechando el encadenamiento de prompts, los equipos pueden construir aplicaciones robustas que integren lógica, recuperación de datos y Reconocimiento de Acciones. Para la gestión de conjuntos de datos y el entrenamiento de los modelos de visión que impulsan estas cadenas, la Plataforma Ultralytics ofrece una solución centralizada para anotación, entrenamiento y despliegue.






