Il prompt Chain-of-Thought (CoT) è una tecnica avanzata utilizzata principalmente con i Large Language Models (LLM) per migliorare la loro capacità di eseguire compiti di ragionamento complessi. Invece di chiedere solo la risposta finale, il CoT incoraggia il modello a generare passaggi intermedi o una "catena di pensiero" che porta logicamente alla soluzione. Questo approccio imita i processi umani di risoluzione dei problemi e aiuta i modelli ad affrontare in modo più efficace i problemi che richiedono un ragionamento aritmetico, di buon senso o simbolico, spesso portando a una precisione significativamente migliore. Questa tecnica è stata evidenziata in particolare da una ricerca di Google AI.
Come funziona il prompting a catena del pensiero
Il prompt della CoT guida un modello di intelligenza artificiale mostrandogli esplicitamente come risolvere un problema. Esistono due varianti principali:
- CoT a pochi colpi: Il prompt include alcuni esempi (shot) in cui ogni esempio consiste in una domanda, un processo di ragionamento dettagliato passo dopo passo (la catena del pensiero) e la risposta finale. Il modello impara da questi esempi ad applicare un processo di ragionamento simile alla domanda reale. Si tratta di una forma di apprendimento a pochi colpi applicata ai percorsi di ragionamento.
- CoT a colpo zero: Questo approccio più semplice non richiede di fornire esempi. Invece, alla domanda viene aggiunta una semplice istruzione del tipo "Pensiamo passo dopo passo". Questo spunto incoraggia il modello ad articolare il suo processo di ragionamento prima di fornire la risposta finale. In questo modo si sfruttano le capacità intrinseche del modello apprese durante l'addestramento preliminare.
Esternando le fasi del ragionamento, la CoT rende il processo del modello più trasparente e permette di individuare più facilmente i punti in cui il ragionamento potrebbe essere andato storto. Si contrappone al prompt standard, che spesso chiede una risposta diretta e può fallire nei compiti che richiedono più passaggi logici.
Vantaggi e applicazioni
Il vantaggio principale del prompt della CoT è la sua capacità di migliorare le capacità di ragionamento dei LLM per compiti complessi che il prompt standard non riesce a svolgere. I vantaggi principali includono:
- Miglioramento delle prestazioni: Aumenta significativamente la precisione in compiti come i problemi matematici, i puzzle logici e le risposte a domande in più fasi.
- Maggiore trasparenza: La catena di pensiero generata fornisce informazioni sul processo di ragionamento del modello, contribuendo all'Explainable AI (XAI).
- Migliore gestione della complessità: Consente ai modelli di affrontare problemi che richiedono una scomposizione in fasi più piccole e gestibili.
Esempi del mondo reale:
- Assistenza clienti complessa: Un chatbot AI che utilizza la CoT può gestire questioni complesse per i clienti, come la risoluzione di un problema tecnico in più parti o la spiegazione di una richiesta di fatturazione complessa. La richiesta di CoT guida l'intelligenza artificiale a identificare innanzitutto il problema principale, quindi a richiamare le politiche o i passaggi tecnici pertinenti, a controllare la cronologia degli utenti se necessario e infine a formulare un piano di risoluzione passo dopo passo per il cliente. Questo è più efficace che ipotizzare direttamente una soluzione. Piattaforme come Salesforce Einstein sfruttano un ragionamento simile per il servizio clienti.
- Analisi e interpretazione dei dati: Quando viene presentato un set di dati e una domanda complessa (ad esempio, "Identifica i fattori chiave che contribuiscono al calo delle vendite nell'ultimo trimestre sulla base di questo report"), un LLM che utilizza la CoT può delineare il suo piano di analisi: in primo luogo, identificare i punti di dati rilevanti; in secondo luogo, eseguire i calcoli o i confronti necessari; in terzo luogo, sintetizzare i risultati e, infine, presentare le conclusioni. Questo approccio strutturato migliora l'affidabilità delle analisi dei dati generate dall'IA.
La CoT è particolarmente preziosa nei campi che richiedono un processo decisionale affidabile e complesso, come il supporto all 'analisi delle immagini mediche o la modellazione finanziaria, integrando i progressi in aree come la computer vision (CV) guidata da modelli come Ultralytics YOLO.
Confronto con concetti correlati
La richiesta di CoT è correlata, ma distinta, da altre tecniche di elaborazione del linguaggio naturale (NLP) e di apprendimento automatico (ML):
- Ingegneria dei prompt: Si tratta dell'ampia pratica di progettazione di input efficaci (suggerimenti) per i modelli di intelligenza artificiale. La CoT è una tecnica specifica e avanzata di ingegneria dei prompt che si concentra sull'elicitazione del ragionamento. Altre tecniche possono concentrarsi sulla chiarezza, sulla fornitura di un contesto(arricchimento del prompt) o sulla specificazione del formato.
- Concatenamento di prompt: Il concatenamento dei prompt consiste nel suddividere un'attività complessa in una sequenza di prompt più semplici e interconnessi, dove l'output di un prompt diventa l'input per il successivo. Questo spesso richiede un'orchestrazione esterna (ad esempio, utilizzando framework come LangChain). Al contrario, la CoT si propone di far emergere l'intero processo di ragionamento all'interno di un'unica interazione domanda-risposta.
- Apprendimento a zero colpi: Si riferisce alla capacità di un modello di eseguire compiti su cui non è stato addestrato esplicitamente, senza alcun esempio. La CoT a zero colpi è un'applicazione specifica di questo metodo, che utilizza un'istruzione generica ("Pensiamo passo dopo passo") per attivare il ragionamento. Tuttavia, la CoT spesso funziona meglio in un contesto di pochi colpi, che fornisce esempi di ragionamento specifici per il compito, a differenza dell'apprendimento puro a zero colpi.
La richiesta di CoT rappresenta un passo significativo verso la costruzione di sistemi di intelligenza artificiale (AI) più capaci e interpretabili. La comprensione e l'utilizzo di queste tecniche può essere utile per lo sviluppo di modelli di IA sofisticati, sfruttando potenzialmente piattaforme come Ultralytics HUB per la gestione dell'addestramento e dell'implementazione. Tecniche come l'autoconsistenza possono migliorare ulteriormente la CoT campionando più percorsi di ragionamento e selezionando la risposta più coerente.