Messa a punto del prompt
Ottimizzate in modo efficiente i modelli linguistici di grandi dimensioni con Prompt Tuning: riducete i costi, risparmiate risorse e ottenete senza sforzo un'adattabilità specifica alle attività.
Il Prompt Tuning è una tecnica potente ed efficiente per adattare modelli pre-addestrati di grandi dimensioni, come i Large Language Models (LLM), a nuovi compiti senza alterare i pesi del modello originale. Si tratta di una forma di Parameter-Efficient Fine-Tuning (PEFT) che mantiene congelati i miliardi di parametri del modello di base e apprende invece un piccolo insieme di "soft prompt" specifici per il compito. Questi suggerimenti non sono testo leggibile dall'uomo, ma sono embeddings apprendibili aggiunti all'input, che guidano il modello congelato a produrre l'output desiderato per una specifica attività a valle. Questo approccio riduce drasticamente il costo computazionale e l'archiviazione necessari per l'adattamento specifico al compito, come documentato nel documento di ricerca originale di Google AI.
L'idea di base è quella di addestrare solo poche migliaia o milioni di parametri aggiuntivi (il soft prompt) per ogni compito, piuttosto che riqualificare o mettere a punto l 'intero modello, che potrebbe avere miliardi di parametri. In questo modo è possibile creare molti "moduli di prompt" specializzati per un singolo modello pre-addestrato, ciascuno adatto a un compito diverso, senza creare copie complete del modello. Questo metodo aiuta anche a mitigare l'oblio catastrofico, quando un modello dimentica le informazioni apprese in precedenza quando viene addestrato per un nuovo compito.
Applicazioni del mondo reale
Prompt Tuning consente la personalizzazione di potenti modelli di fondazione per un'ampia gamma di applicazioni specializzate.
- Sentiment Analysis personalizzata: Un'azienda vuole analizzare il feedback dei clienti per i suoi prodotti specifici. Un modello di sentiment analysis generico potrebbe non comprendere il gergo specifico del settore. Utilizzando la sintonizzazione dei prompt, l'azienda può adattare un modello di grandi dimensioni come BERT addestrando un piccolo set di prompt morbidi sulle proprie recensioni etichettate dei clienti. Il modello risultante è in grado di classificare accuratamente i feedback senza la necessità di un addestramento completo del modello, fornendo approfondimenti più sfumati.
- Chatbot medici specializzati: Un'organizzazione sanitaria vuole costruire un chatbot che risponda alle domande dei pazienti su specifiche condizioni mediche. L'addestramento completo di un LLM medico di grandi dimensioni richiede molte risorse. Si può invece ricorrere alla sintonizzazione dei prompt su un modello pre-addestrato come il GPT-4. Addestrando un prompt specifico per un compito su un set di dati medici curati, il chatbot impara a fornire risposte accurate e consapevoli del contesto per quel dominio, rendendo più accessibile un'IA potente nel settore sanitario.
Sintonizzazione dei prompt e concetti correlati
È importante distinguere il Prompt Tuning da tecniche simili:
- Messa a punto: Questo metodo aggiorna gran parte, o addirittura tutti, i parametri di un modello pre-addestrato su un nuovo set di dati. È un metodo più intensivo dal punto di vista computazionale, ma a volte può ottenere prestazioni più elevate adattando profondamente le rappresentazioni interne del modello. I suggerimenti per l'addestramento dei modelli riguardano spesso aspetti della messa a punto.
- Ingegneria tempestiva: Si tratta di progettare manualmente prompt efficaci basati sul testo (hard prompt) per guidare un modello preaddestrato congelato. Si tratta di creare istruzioni ed esempi all'interno del testo di input stesso e non comporta l'addestramento di nuovi parametri. Tecniche come il prompt a catena di pensieri rientrano in questa categoria.
- Arricchimento dei promemoria: Questa tecnica migliora automaticamente il prompt dell'utente aggiungendo un contesto, ad esempio utilizzando la RAG (Retrieval-Augmented Generation), prima di inviarlo al modello di intelligenza artificiale. A differenza della sintonizzazione dei prompt, affina la richiesta di input senza addestrare nuovi parametri.
- LoRA (adattamento a basso rango): Un'altra tecnica PEFT che inietta piccole matrici a basso rango addestrabili negli strati esistenti (come il meccanismo di attenzione) del modello pre-addestrato. Aggiorna diverse parti del modello rispetto a Prompt Tuning, che si concentra solo sulle incorporazioni di input. Entrambi si trovano spesso in librerie come la libreria Hugging Face PEFT.
Sebbene il Prompt Tuning sia applicato prevalentemente ai LLM nell'elaborazione del linguaggio naturale (NLP), il principio fondamentale dell'adattamento efficiente è rilevante in tutta l'intelligenza artificiale (AI). Nella Computer Vision (CV), mentre la messa a punto completa di modelli come Ultralytics YOLO su set di dati personalizzati è comune per compiti come il rilevamento di oggetti, i metodi PEFT stanno guadagnando terreno, soprattutto per i modelli multimodali di grandi dimensioni. Piattaforme come Ultralytics HUB semplificano il processo di addestramento e distribuzione di vari modelli di IA, e potenzialmente possono incorporare queste tecniche efficienti in futuro.