Explore how Chain-of-Thought prompting enhances AI reasoning. Learn to use CoT for complex tasks, from LLM logic to generating [YOLO26](https://docs.ultralytics.com/models/yolo26/) code.
La técnica de Chain-of-Thought (CoT) es una técnica avanzada de ingeniería de prompts que permite a los modelos de lenguaje grandes (LLM) resolver tareas de razonamiento complejas desglosándolas en pasos lógicos intermedios. En lugar de pedir al modelo que proporcione una respuesta final inmediata, CoT anima al sistema a generar una «cadena de pensamiento» que imita la resolución de problemas humana. Este razonamiento paso a paso mejora significativamente el rendimiento en tareas relacionadas con la aritmética, la lógica simbólica y el razonamiento basado en el sentido común, transformando la forma en que interactuamos con los sistemas de inteligencia artificial (IA).
Los modelos de lenguaje estándar suelen tener dificultades con los problemas de varios pasos porque intentan asignar la entrada directamente a la salida en una sola pasada. Este enfoque de «caja negra» puede dar lugar a errores, especialmente cuando el salto lógico es demasiado grande. La cadena de pensamiento aborda este problema insertando pasos de razonamiento entre la pregunta de entrada y la salida final.
Este proceso suele funcionar de dos maneras:
Al generar explícitamente razonamientos intermedios, el modelo tiene más oportunidades de corregirse a sí mismo y proporciona transparencia sobre cómo llegó a una conclusión. Esto es crucial para reducir las alucinaciones en los LLM, donde los modelos podrían de otro modo afirmar con confianza hechos incorrectos.
Aunque inicialmente se desarrolló para la lógica basada en texto, la sugerencia de cadenas de pensamiento tiene potentes aplicaciones cuando se combina con otros ámbitos de la IA, como la visión artificial y la generación de código.
Los desarrolladores utilizan CoT para guiar a los LLM en la escritura de scripts de software complejos para tareas como la detección de objetos. En lugar de una solicitud vaga como «escribe código para encontrar coches», una indicación de CoT podría estructurar la solicitud: «Primero, importa las bibliotecas necesarias . Segundo, carga el modelo preentrenado. Tercero, define la fuente de la imagen. Por último, ejecuta el bucle de predicción». Este enfoque estructurado garantiza que el código generado para modelos como YOLO26 sea sintácticamente correcto y lógicamente sólido.
En el campo de los vehículos autónomos, los sistemas deben procesar datos visuales y tomar decisiones críticas para la seguridad. Un enfoque de cadena de pensamiento permite al sistema articular su lógica: detect peatón cerca del paso de cebra. El peatón está de cara a la carretera. El semáforo está en verde para mí, pero el peatón podría salir. Por lo tanto, reduciré la velocidad y me prepararé para detenerme». Esto hace que las decisiones de la IA sean interpretables y se ajusten a los principios de la IA explicable (XAI).
Aunque CoT es principalmente una técnica de lenguaje natural, se puede implementar mediante programación para garantizar interacciones coherentes con los modelos de visión. El siguiente Python muestra cómo un desarrollador podría estructurar una indicación para guiar a un LLM (simulado aquí) en la generación de código de inferencia válido para Ultralytics .
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")
Es importante diferenciar la sugerencia de la cadena de pensamiento de términos similares en el ámbito del aprendizaje automático (ML):
A medida que los modelos básicos siguen evolucionando, las indicaciones de cadena de pensamiento se están convirtiendo en una práctica recomendada estándar para aprovechar todo su potencial. Las investigaciones de grupos como Google DeepMind sugieren que, a medida que los modelos aumentan de tamaño, su capacidad para realizar razonamientos CoT mejora drásticamente. Esta evolución está allanando el camino para agentes autónomos más fiables, capaces de manejar flujos de trabajo complejos en sectores que van desde la sanidad hasta la fabricación inteligente.