La incitación a la Cadena de Pensamiento (CoT) es una técnica avanzada que se utiliza principalmente con los Modelos de Lenguaje Amplio (LLM ) para mejorar su capacidad de realizar tareas de razonamiento complejas. En lugar de pedir sólo la respuesta final, CoT anima al modelo a generar pasos intermedios o una "cadena de pensamiento" que conduzca lógicamente a la solución. Este enfoque imita los procesos humanos de resolución de problemas y ayuda a los modelos a abordar problemas que requieren razonamiento aritmético, de sentido común o simbólico con mayor eficacia, lo que a menudo conduce a una precisión significativamente mayor. La técnica se destacó especialmente en una investigación de Google AI.
Cómo funciona el estímulo de la cadena de pensamiento
Las indicaciones de CoT guían a un modelo de IA mostrándole explícitamente cómo descomponer un problema. Existen dos variantes principales:
- CoT de pocos disparos: La pregunta incluye unos cuantos ejemplos (disparos) en los que cada ejemplo consiste en una pregunta, un proceso de razonamiento detallado paso a paso (la cadena de pensamiento) y la respuesta final. El modelo aprende de estos ejemplos a aplicar un proceso de razonamiento similar a la pregunta real formulada. Se trata de una forma de aprendizaje de pocos ejemplos aplicada a las vías de razonamiento.
- CoT de tiro cero: Este enfoque más sencillo no requiere proporcionar ejemplos. En su lugar, se añade a la pregunta una instrucción sencilla como "Pensemos paso a paso". Esta indicación anima al modelo a articular su proceso de razonamiento antes de dar la respuesta final. Aprovecha las capacidades inherentes al modelo aprendidas durante su amplio preentrenamiento.
Al externalizar los pasos del razonamiento, CoT hace que el proceso del modelo sea más transparente y permite depurar más fácilmente dónde puede haber fallado el razonamiento. Contrasta con el razonamiento estándar, que a menudo pide una respuesta directa y puede fallar en tareas que requieren múltiples pasos lógicos.
Beneficios y aplicaciones
La principal ventaja de la orientación CoT es su capacidad para mejorar la capacidad de razonamiento de los LLM en tareas complejas, para las que la orientación estándar tiene dificultades. Las principales ventajas son:
- Mejora el rendimiento: Aumenta significativamente la precisión en tareas como problemas matemáticos de palabras, rompecabezas lógicos y respuesta a preguntas de varios pasos.
- Mayor transparencia: La cadena de pensamiento generada proporciona información sobre el proceso de razonamiento del modelo, contribuyendo a la IA Explicable (XAI).
- Mejor manejo de la complejidad: Permite a los modelos abordar problemas que requieren descomponerlos en pasos más pequeños y manejables.
Ejemplos del mundo real:
- Atención al cliente compleja: Un chatbot de IA que utilice CoT puede gestionar problemas intrincados de los clientes, como solucionar un problema técnico de varias partes o explicar una consulta de facturación compleja. La solicitud de CoT guía a la IA para que identifique primero el problema principal, luego recuerde las políticas o pasos técnicos relevantes, compruebe el historial del usuario si es necesario y, por último, formule un plan de resolución paso a paso para el cliente. Esto es más eficaz que adivinar directamente una solución. Plataformas como Salesforce Einstein aprovechan un razonamiento similar para el servicio al cliente.
- Análisis e Interpretación de Datos: Cuando se le presenta un conjunto de datos y una consulta compleja (por ejemplo, "Identifica los factores clave que contribuyeron al descenso de las ventas el trimestre pasado basándote en este informe"), un LLM que utilice CoT puede esbozar su plan de análisis: primero, identificar los puntos de datos relevantes; segundo, realizar los cálculos o comparaciones necesarios; tercero, sintetizar los resultados; y, por último, presentar la conclusión. Este enfoque estructurado mejora la fiabilidad de las perspectivas de análisis de datos generadas por la IA.
CoT es especialmente valioso en campos que requieren una toma de decisiones fiable y compleja, como el apoyo al análisis de imágenes médicas o la modelización financiera, complementando los avances en áreas como la visión por ordenador (VC) impulsada por modelos como Ultralytics YOLO.
Comparación con conceptos afines
La incitación CoT está relacionada con otras técnicas de procesamiento del lenguaje natural (PLN) y aprendizaje automático (AM), pero es distinta de ellas:
- Ingeniería de instrucciones: Se trata de la práctica general de diseñar entradas eficaces (prompts) para los modelos de IA. El CoT es una técnica específica y avanzada de ingeniería de instrucciones centrada en obtener razonamientos. Otras técnicas pueden centrarse en la claridad, la provisión de contexto(enriquecimiento de instrucciones) o la especificación del formato.
- Encadenamiento de instrucciones: El encadenamiento de instrucciones consiste en dividir una tarea compleja en una secuencia de instrucciones más sencillas e interconectadas, en las que la salida de una instrucción se convierte en la entrada de la siguiente. Esto suele requerir una orquestación externa (por ejemplo, utilizando marcos como LangChain). En cambio, la CoT pretende obtener todo el proceso de razonamiento en una única interacción pregunta-respuesta.
- Aprendizaje sin ejemplos: Se refiere a la capacidad de un modelo para realizar tareas en las que no ha sido entrenado explícitamente, sin ningún ejemplo. El CoT de disparo cero es una aplicación específica de esto, que utiliza una instrucción genérica ("Pensemos paso a paso") para desencadenar el razonamiento. Sin embargo, la CoT suele funcionar mejor en un entorno de pocos disparos, que proporciona ejemplos de razonamiento específicos de la tarea, a diferencia del aprendizaje de disparo cero puro.
La inducción CoT representa un paso importante hacia la construcción de sistemas de Inteligencia Artificial (IA ) más capaces e interpretables. Comprender y utilizar estas técnicas puede ser beneficioso a la hora de desarrollar modelos de IA sofisticados, aprovechando potencialmente plataformas como Ultralytics HUB para gestionar la formación y el despliegue. Las técnicas como la Autoconsistencia pueden mejorar aún más el CoT, muestreando múltiples vías de razonamiento y seleccionando la respuesta más coherente.