Chain-of-Thought Prompting
Explore le prompting par chaîne de pensée (CoT) pour améliorer le raisonnement de l'IA. Apprends comment diviser les tâches en étapes logiques améliore la génération de code pour Ultralytics YOLO26.
Le prompting par chaîne de pensée (CoT) est une technique avancée d'ingénierie de prompt qui permet aux grands modèles de langage (LLM) de résoudre des tâches de raisonnement complexes en les décomposant en étapes logiques intermédiaires. Plutôt que de demander à un modèle de fournir une réponse finale immédiate, la CoT encourage le système à générer un « cheminement de pensée » qui imite la résolution de problèmes humaine. Ce raisonnement étape par étape améliore considérablement les performances sur les tâches impliquant l'arithmétique, la logique symbolique et le raisonnement de sens commun, transformant ainsi la façon dont nous interagissons avec les systèmes d'Intelligence Artificielle (IA).
Link to this sectionLe mécanisme du raisonnement#
Les modèles de langage standard peinent souvent avec les problèmes à plusieurs étapes car ils tentent de faire correspondre l'entrée directement à la sortie en un seul passage. Cette approche de « boîte noire » peut entraîner des erreurs, particulièrement lorsque le saut logique est trop important. Le prompting par chaîne de pensée résout ce problème en insérant des étapes de raisonnement entre la question d'entrée et la sortie finale.
Ce processus fonctionne généralement de deux manières :
- Zero-Shot CoT : L'utilisateur ajoute une simple phrase déclencheur comme « Réfléchissons étape par étape » au prompt. Cela active les capacités de raisonnement latentes du modèle sans nécessiter d'exemples spécifiques.
- Few-Shot CoT : Le prompt inclut quelques exemples (exemplars) de questions associées à leurs solutions étape par étape. Cela exploite le few-shot learning pour montrer au modèle exactement comment structurer sa logique avant de tenter de résoudre un nouveau problème.
En générant explicitement un raisonnement intermédiaire, le modèle a plus d'opportunités de se corriger lui-même et offre une transparence sur la façon dont il est parvenu à une conclusion. C'est crucial pour réduire les hallucinations dans les LLM, où les modèles pourraient autrement affirmer des faits incorrects avec assurance.
Link to this sectionApplications concrètes#
Bien qu'initialement développée pour la logique basée sur le texte, le prompting par chaîne de pensée a des applications puissantes lorsqu'il est combiné avec d'autres domaines de l'IA, tels que la vision par ordinateur et la génération de code.
Link to this sectionAméliorer la génération de code pour la vision par ordinateur#
Les développeurs utilisent la CoT pour guider les LLM dans l'écriture de scripts logiciels complexes pour des tâches comme la détection d'objets. Au lieu d'une demande vague comme « écris du code pour trouver des voitures », un prompt CoT pourrait structurer la demande ainsi : « D'abord, importe les bibliothèques nécessaires. Deuxièmement, charge le modèle pré-entraîné. Troisièmement, définis la source de l'image. Enfin, lance la boucle de prédiction. » Cette approche structurée garantit que le code généré pour des modèles comme YOLO26 est syntaxiquement correct et logiquement solide.
Link to this sectionPrise de décision autonome#
Dans le domaine des véhicules autonomes, les systèmes doivent traiter des données visuelles et prendre des décisions critiques pour la sécurité. Une approche par chaîne de pensée permet au système d'articuler sa logique : « Je détecte un piéton près du passage piéton. Le piéton fait face à la route. Le feu est au vert pour moi, mais le piéton pourrait s'avancer. Par conséquent, je vais ralentir et me préparer à m'arrêter. » Cela rend les décisions de l'IA interprétables et les aligne sur les principes de l'IA explicable (XAI).
Link to this sectionLa chaîne de pensée en action#
Bien que la CoT soit principalement une technique de langage naturel, elle peut être mise en œuvre par programmation pour garantir des interactions cohérentes avec les modèles de vision. L'exemple Python suivant démontre comment un développeur pourrait structurer un prompt pour guider un LLM (simulé ici) dans la génération de code d'inférence valide pour la plateforme Ultralytics.
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")Link to this sectionDistinguer les concepts apparentés#
Il est important de différencier le prompting par chaîne de pensée de termes similaires dans le paysage du Machine Learning (ML) :
- Enchaînement de prompts (Prompt Chaining) : Cela implique la connexion de plusieurs appels de modèle distincts, où la sortie d'une étape devient l'entrée de la suivante. La CoT se produit au sein d'un seul prompt pour susciter un raisonnement interne, tandis que l'enchaînement de prompts orchestre un flux de travail à travers de multiples interactions.
- Génération augmentée par récupération (RAG) : La RAG se concentre sur la récupération de données externes (comme des documents ou des bases de données) pour ancrer les connaissances du modèle. La CoT se concentre sur le processus de raisonnement lui-même. Souvent, ils sont combinés — en utilisant la RAG pour obtenir les faits et la CoT pour raisonner à leur sujet.
- Réglage de prompt (Prompt Tuning) : Il s'agit d'une méthode de réglage fin efficace en termes de paramètres qui optimise les prompts logiciels continus (vecteurs) pendant l'entraînement. La CoT est une stratégie discrète en langage naturel appliquée lors de l'inférence en temps réel sans modifier les poids du modèle.
Link to this sectionPerspectives d'avenir#
À mesure que les modèles de fondation continuent d'évoluer, le prompting par chaîne de pensée devient une bonne pratique standard pour libérer leur plein potentiel. Les recherches de groupes comme Google DeepMind suggèrent qu'à mesure que les modèles augmentent en taille, leur capacité à effectuer un raisonnement CoT s'améliore considérablement. Cette évolution ouvre la voie à des agents autonomes plus fiables, capables de gérer des flux de travail complexes dans des secteurs allant de la santé à la fabrication intelligente.






