Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Encadenamiento de Prompts

Descubra cómo el encadenamiento rápido divide las tareas complejas de IA en flujos de trabajo fiables. Explore cómo integrar Ultralytics con LLM para crear agentes de IA avanzados.

El encadenamiento de indicaciones es un patrón arquitectónico avanzado en el desarrollo de la inteligencia artificial (IA) en el que una tarea compleja se descompone en una secuencia de subtareas más pequeñas y manejables. En este flujo de trabajo, el resultado de un paso, a menudo generado por un modelo de lenguaje grande (LLM) o un sistema de visión por ordenador , sirve como entrada para el paso siguiente. A diferencia de un único prompt monolítico que intenta resolver un problema multifacético de una sola vez, el encadenamiento permite a los desarrolladores crear aplicaciones más fiables, comprobables y capaces . Este enfoque modular es esencial para crear sofisticados agentes de IA que puedan razonar, navegar por la web o interactuar con entornos físicos.

La mecánica del encadenamiento

En esencia, el encadenamiento rápido aborda las limitaciones de las ventanas de contexto y las capacidades de razonamiento en modelos base. Cuando se pide a un modelo que realice demasiadas operaciones distintas en una sola solicitud (por ejemplo, «analizar esta imagen, extraer el texto, traducirlo al español y formatearlo como una factura JSON»), la probabilidad de error aumenta. Al dividir esto en un flujo de trabajo, los desarrolladores pueden verificar la precisión de cada etapa.

Las cadenas eficaces suelen utilizar «código pegamento» escrito en Python o gestionado por bibliotecas de orquestación como LangChain para gestionar la transformación de datos entre pasos. Esto permite la integración de tecnologías dispares, como la combinación de la agudeza visual de la detección de objetos con la fluidez lingüística de los modelos de texto generativo.

Aplicaciones en el mundo real

El encadenamiento rápido es especialmente potente a la hora de salvar la brecha entre diferentes modalidades de datos, lo que permite que los modelos multimodales funcionen en entornos industriales y comerciales dinámicos .

  1. Informes visuales automatizados: en la fabricación inteligente, un sistema de control de calidad puede encadenar un modelo de visión con un LLM. En primer lugar, un modelo de alta velocidad como Ultralytics escanea los componentes en una línea de montaje. La salida estructurada (por ejemplo, «Clase: Lata abollada, Confianza: 0,92») se convierte en una cadena de texto. A continuación, este texto se pasa a un modelo de lenguaje con una indicación como «Redacta una solicitud de mantenimiento basada en este defecto», generando un correo electrónico legible para el responsable de planta.
  2. Atención al cliente consciente del contexto: los chatbots inteligentes suelen utilizar el encadenamiento para navegar por consultas complejas de los usuarios . El primer eslabón de la cadena puede utilizar el procesamiento del lenguaje natural (NLP) para classify la intención classify . Si la intención es técnica, el sistema activa un flujo de trabajo de generación aumentada por recuperación (RAG) : genera incrustaciones para la consulta, busca documentación en una base de datos vectorial y, finalmente, solicita a un LLM que sintetice los fragmentos recuperados en una respuesta útil.

Ejemplo de código de visión a lenguaje

El siguiente ejemplo muestra el primer «eslabón» de una cadena: el uso de la visión artificial (CV) para generar datos estructurados que sirven de contexto para una indicación posterior.

from ultralytics import YOLO

# Load the YOLO26 model (natively end-to-end and highly efficient)
model = YOLO("yolo26n.pt")

# Step 1: Run inference to 'see' the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Step 2: Format visual detections into a natural language string
det_names = [model.names[int(c)] for c in results[0].boxes.cls]
prompt_context = f"The scene contains: {', '.join(det_names)}. Please describe the likely activity."

# The 'prompt_context' variable is now ready to be sent to an LLM API
print(prompt_context)

Distinguir conceptos relacionados

Para implementar arquitecturas eficaces de aprendizaje automático (ML), resulta útil diferenciar el encadenamiento de indicaciones de otros términos similares en el ámbito de la IA:

  • Vs. Cadena de pensamientos: La cadena de pensamientos (CoT) es una técnica utilizada dentro de una sola indicación para animar a un modelo a «mostrar su trabajo» (por ejemplo, «Piensa paso a paso»). El encadenamiento de indicaciones implica múltiples llamadas API distintas en las que la entrada al paso B depende de la salida del paso A.
  • Vs. Ingeniería de indicaciones: La ingeniería de indicaciones es la disciplina más amplia de optimizar las entradas de texto para obtener un mejor rendimiento del modelo. El encadenamiento es un patrón de ingeniería específico que se centra en el flujo secuencial de operaciones y el control lógico.
  • Vs. Ajuste rápido: El ajuste rápido es un método de optimización de modelos que actualiza los parámetros aprendibles (indicaciones suaves) durante una fase de entrenamiento. El encadenamiento rápido se produce íntegramente durante la inferencia en tiempo real y no altera los pesos del modelo.

Aprovechando el encadenamiento rápido, los equipos pueden crear aplicaciones robustas que integren lógica, recuperación de datos y reconocimiento de acciones. Para gestionar los conjuntos de datos y entrenar los modelos de visión que alimentan estas cadenas, la Ultralytics ofrece una solución centralizada para la anotación, el entrenamiento y la implementación.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora