Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Prompting de Cadena de Pensamiento

Explore how Chain-of-Thought prompting enhances AI reasoning. Learn to use CoT for complex tasks, from LLM logic to generating [YOLO26](https://docs.ultralytics.com/models/yolo26/) code.

La técnica de Chain-of-Thought (CoT) es una técnica avanzada de ingeniería de prompts que permite a los modelos de lenguaje grandes (LLM) resolver tareas de razonamiento complejas desglosándolas en pasos lógicos intermedios. En lugar de pedir al modelo que proporcione una respuesta final inmediata, CoT anima al sistema a generar una «cadena de pensamiento» que imita la resolución de problemas humana. Este razonamiento paso a paso mejora significativamente el rendimiento en tareas relacionadas con la aritmética, la lógica simbólica y el razonamiento basado en el sentido común, transformando la forma en que interactuamos con los sistemas de inteligencia artificial (IA).

El mecanismo del razonamiento

Los modelos de lenguaje estándar suelen tener dificultades con los problemas de varios pasos porque intentan asignar la entrada directamente a la salida en una sola pasada. Este enfoque de «caja negra» puede dar lugar a errores, especialmente cuando el salto lógico es demasiado grande. La cadena de pensamiento aborda este problema insertando pasos de razonamiento entre la pregunta de entrada y la salida final.

Este proceso suele funcionar de dos maneras:

  • Zero-Shot CoT: El usuario añade una frase desencadenante sencilla como «Pensemos paso a paso» a la indicación. Esto activa las capacidades de razonamiento latentes del modelo sin necesidad de ejemplos específicos.
  • Few-Shot CoT: La indicación incluye algunos ejemplos (ejemplares) de preguntas junto con sus soluciones paso a paso. Esto aprovecha el aprendizaje con pocos ejemplos para mostrar al modelo exactamente cómo estructurar su lógica antes de intentar resolver un nuevo problema.

Al generar explícitamente razonamientos intermedios, el modelo tiene más oportunidades de corregirse a sí mismo y proporciona transparencia sobre cómo llegó a una conclusión. Esto es crucial para reducir las alucinaciones en los LLM, donde los modelos podrían de otro modo afirmar con confianza hechos incorrectos.

Aplicaciones en el mundo real

Aunque inicialmente se desarrolló para la lógica basada en texto, la sugerencia de cadenas de pensamiento tiene potentes aplicaciones cuando se combina con otros ámbitos de la IA, como la visión artificial y la generación de código.

1. Mejora de la generación de código para la visión artificial

Los desarrolladores utilizan CoT para guiar a los LLM en la escritura de scripts de software complejos para tareas como la detección de objetos. En lugar de una solicitud vaga como «escribe código para encontrar coches», una indicación de CoT podría estructurar la solicitud: «Primero, importa las bibliotecas necesarias . Segundo, carga el modelo preentrenado. Tercero, define la fuente de la imagen. Por último, ejecuta el bucle de predicción». Este enfoque estructurado garantiza que el código generado para modelos como YOLO26 sea sintácticamente correcto y lógicamente sólido.

2. Toma de decisiones autónoma

En el campo de los vehículos autónomos, los sistemas deben procesar datos visuales y tomar decisiones críticas para la seguridad. Un enfoque de cadena de pensamiento permite al sistema articular su lógica: detect peatón cerca del paso de cebra. El peatón está de cara a la carretera. El semáforo está en verde para mí, pero el peatón podría salir. Por lo tanto, reduciré la velocidad y me prepararé para detenerme». Esto hace que las decisiones de la IA sean interpretables y se ajusten a los principios de la IA explicable (XAI).

Cadena de pensamiento en acción

Aunque CoT es principalmente una técnica de lenguaje natural, se puede implementar mediante programación para garantizar interacciones coherentes con los modelos de visión. El siguiente Python muestra cómo un desarrollador podría estructurar una indicación para guiar a un LLM (simulado aquí) en la generación de código de inferencia válido para Ultralytics .

# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script

cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.

Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.

Based on these steps, generate the Python code below:
"""

# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")

Distinguir conceptos relacionados

Es importante diferenciar la sugerencia de la cadena de pensamiento de términos similares en el ámbito del aprendizaje automático (ML):

  • Encadenamiento de indicaciones: consiste en conectar varias llamadas de modelos separadas, en las que el resultado de un paso se convierte en la entrada del siguiente. El CoT se produce dentro de una sola indicación para provocar un razonamiento interno, mientras que el encadenamiento de indicaciones coordina un flujo de trabajo a través de múltiples interacciones.
  • Generación aumentada por recuperación (RAG): La RAG se centra en la obtención de datos externos (como documentos o bases de datos) para fundamentar el conocimiento del modelo. La CoT se centra en el proceso de razonamiento en sí mismo. A menudo, se combinan ambas: se utiliza la RAG para obtener los datos y la CoT para razonar sobre ellos.
  • Ajuste rápido: Se trata de un método de ajuste fino eficiente en cuanto a parámetros que optimiza las indicaciones continuas (vectores) durante el entrenamiento. CoT es una estrategia de lenguaje natural discreta que se aplica en la inferencia en tiempo real sin alterar los pesos del modelo.

Perspectivas de futuro

A medida que los modelos básicos siguen evolucionando, las indicaciones de cadena de pensamiento se están convirtiendo en una práctica recomendada estándar para aprovechar todo su potencial. Las investigaciones de grupos como Google DeepMind sugieren que, a medida que los modelos aumentan de tamaño, su capacidad para realizar razonamientos CoT mejora drásticamente. Esta evolución está allanando el camino para agentes autónomos más fiables, capaces de manejar flujos de trabajo complejos en sectores que van desde la sanidad hasta la fabricación inteligente.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora