Chain-of-Thought Prompting
Explora el prompting de Cadena de Pensamiento (CoT) para mejorar el razonamiento de la IA. Aprende cómo dividir las tareas en pasos lógicos mejora la generación de código para Ultralytics YOLO26.
El prompting de cadena de pensamiento (CoT, por sus siglas en inglés) es una técnica avanzada en la ingeniería de prompts que permite a los modelos de lenguaje grandes (LLMs) resolver tareas de razonamiento complejas desglosándolas en pasos lógicos intermedios. En lugar de pedir a un modelo que proporcione una respuesta final inmediata, el CoT anima al sistema a generar un "hilo de pensamiento" que imita la resolución de problemas humana. Este razonamiento paso a paso mejora significativamente el rendimiento en tareas que implican aritmética, lógica simbólica y razonamiento de sentido común, transformando cómo interactuamos con los sistemas de Inteligencia Artificial (IA).
Link to this sectionEl mecanismo del razonamiento#
Los modelos de lenguaje estándar suelen tener dificultades con problemas de múltiples pasos porque intentan asignar la entrada directamente a la salida en una sola pasada. Este enfoque de "caja negra" puede provocar errores, especialmente cuando el salto lógico es demasiado grande. El prompting de cadena de pensamiento soluciona esto insertando pasos de razonamiento entre la pregunta de entrada y la salida final.
Este proceso generalmente funciona de dos maneras:
- CoT Zero-Shot: El usuario añade una frase desencadenante simple como "Vamos a pensar paso a paso" al prompt. Esto activa las capacidades de razonamiento latentes del modelo sin requerir ejemplos específicos.
- CoT Few-Shot: El prompt incluye algunos ejemplos (ejemplares) de preguntas emparejadas con sus soluciones paso a paso. Esto aprovecha el few-shot learning para mostrar al modelo exactamente cómo estructurar su lógica antes de intentar un nuevo problema.
Al generar explícitamente razonamientos intermedios, el modelo tiene más oportunidades para corregirse a sí mismo y aporta transparencia sobre cómo llegó a una conclusión. Esto es crucial para reducir las alucinaciones en LLMs, donde los modelos podrían, de otro modo, afirmar hechos incorrectos con confianza.
Link to this sectionAplicaciones en el mundo real#
Aunque se desarrolló inicialmente para la lógica basada en texto, el prompting de cadena de pensamiento tiene aplicaciones potentes cuando se combina con otros dominios de la IA, como la visión artificial y la generación de código.
Link to this sectionMejora de la generación de código para visión artificial#
Los desarrolladores utilizan CoT para guiar a los LLMs en la escritura de scripts de software complejos para tareas como la detección de objetos. En lugar de una solicitud vaga como "escribe código para encontrar coches", un prompt CoT podría estructurar la solicitud: "Primero, importa las librerías necesarias. Segundo, carga el modelo preentrenado. Tercero, define la fuente de la imagen. Finalmente, ejecuta el bucle de predicción". Este enfoque estructurado asegura que el código generado para modelos como YOLO26 sea sintácticamente correcto y lógicamente sólido.
Link to this sectionToma de decisiones autónoma#
En el campo de los vehículos autónomos, los sistemas deben procesar datos visuales y tomar decisiones críticas para la seguridad. Un enfoque de cadena de pensamiento permite al sistema articular su lógica: "Detecto un peatón cerca del paso de cebra. El peatón está mirando hacia la carretera. El semáforo está en verde para mí, pero el peatón podría cruzar. Por lo tanto, reduciré la velocidad y me prepararé para frenar". Esto hace que las decisiones de la IA sean interpretables y se alineen con los principios de la IA explicable (XAI).
Link to this sectionCadena de pensamiento en acción#
Aunque CoT es principalmente una técnica de lenguaje natural, puede implementarse mediante programación para asegurar interacciones consistentes con modelos de visión. El siguiente ejemplo en Python demuestra cómo un desarrollador podría estructurar un prompt para guiar a un LLM (simulado aquí) en la generación de código de inferencia válido para la Plataforma Ultralytics.
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")Link to this sectionDistinguir conceptos relacionados#
Es importante diferenciar el prompting de cadena de pensamiento de términos similares en el panorama del Machine Learning (ML):
- Encadenamiento de prompts (Prompt Chaining): Esto implica conectar múltiples llamadas de modelo separadas, donde la salida de un paso se convierte en la entrada del siguiente. El CoT ocurre dentro de un único prompt para provocar un razonamiento interno, mientras que el encadenamiento de prompts organiza un flujo de trabajo a través de múltiples interacciones.
- Generación aumentada por recuperación (RAG): RAG se centra en obtener datos externos (como documentos o bases de datos) para fundamentar el conocimiento del modelo. El CoT se centra en el proceso de razonamiento en sí mismo. A menudo, ambos se combinan: usar RAG para obtener los hechos y CoT para razonar sobre ellos.
- Ajuste de prompts (Prompt Tuning): Este es un método de ajuste fino eficiente en parámetros que optimiza prompts blandos continuos (vectores) durante el entrenamiento. El CoT es una estrategia discreta de lenguaje natural aplicada en inferencia en tiempo real sin alterar los pesos del modelo.
Link to this sectionPerspectivas de futuro#
A medida que los modelos fundacionales continúan evolucionando, el prompting de cadena de pensamiento se está convirtiendo en una práctica recomendada estándar para liberar todo su potencial. Las investigaciones de grupos como Google DeepMind sugieren que a medida que los modelos escalan en tamaño, su capacidad para realizar razonamientos CoT mejora drásticamente. Esta evolución está allanando el camino para agentes autónomos más fiables, capaces de gestionar flujos de trabajo complejos en industrias que van desde la sanidad hasta la fabricación inteligente.






