Ottimizza i modelli linguistici di grandi dimensioni in modo efficiente con il Prompt Tuning: riduci i costi, risparmia risorse e ottieni un'adattabilità specifica per le attività senza sforzo.
La messa a punto tempestiva è una strategia per adattare i modelli di base pre-allenati modelli di fondazione pre-addestrati a compiti specifici senza il costo computazionale della riqualificazione dell'intera rete. Come forma di Parameter-Efficient Fine-Tuning (PEFT), questa tecnica congela gli enormi parametri del modello originale e ottimizza solo un piccolo insieme di vettori apprendibili, noti come "soft prompt". vettori apprendibili, noti come "soft prompt". A differenza del testo leggibile dall'uomo utilizzato nella di testo leggibile dall'uomo utilizzato nell'ingegneria dei prompt, i soft prompt sono numerici che vengono aggiunti ai dati di input. Questi vettori vettori appresi guidano il modello congelato a generare l'output desiderato, riducendo in modo significativo i requisiti di memoria e di archiviazione rispetto all'addestramento completo del modello. memoria rispetto all'addestramento completo del modello. Questo approccio permette di servire molti compiti specializzati diversi utilizzando un unico modello centrale condiviso.
Il meccanismo alla base del prompt tuning si basa sul concetto di modifica dell'input piuttosto che dell'architettura del modello. In un tipico flusso di lavoro di apprendimento automatico (ML) che coinvolge i modelli linguistici di grandi dimensioni (LLM) o i modelli linguistici di Vision Language Models, il testo o l'immagine in ingresso vengono convertiti in una sequenza di vettori numerici. Nella sintonizzazione dei prompt, vengono vettori addestrabili (il soft prompt) vengono inseriti all'inizio di questa sequenza.
Durante la fase di backpropagation dell'addestramento, l'algoritmo di discesa del gradiente aggiorna solo questi nuovi l'algoritmo di discesa del gradiente aggiorna solo questi nuovi vettori, lasciando i miliardi di pesi del modello vettori, lasciando inalterati i miliardi di pesi del modello nel modello non vengono toccati. Questo metodo è stato evidenziato in una ricerca di Google AI, che ha dimostrato che quando i modelli diventano più grandi, la messa a punto immediata può eguagliare le prestazioni della messa a punto completa.
La messa a punto tempestiva sta trasformando le industrie rendendo l'intelligenza artificiale (IA) avanzata intelligenza artificiale (IA) più accessibile e scalabile.
È fondamentale distinguere il prompt tuning da tecniche di adattamento simili:
Mentre la sintonizzazione dei prompt è più famosa in elaborazione del linguaggio naturale (NLP), il concetto meccanico sottostante, che prevede il congelamento di una grande spina dorsale e l'ottimizzazione di un piccolo tensoruniversale nell'apprendimento profondo (DL). Deep Learning (DL). Il seguente PyTorch PyTorch dimostra la logica fondamentale del congelamento dei parametri del modello e la creazione di un parametro di richiesta di apprendimento.
import torch
import torch.nn as nn
# Initialize a hypothetical pre-trained layer (the frozen backbone)
backbone = nn.Linear(768, 10)
# Freeze the backbone parameters so they don't update during training
for param in backbone.parameters():
param.requires_grad = False
# Create a 'soft prompt' embedding that IS trainable
# This represents the learnable vectors prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 768), requires_grad=True)
# Setup an optimizer that only targets the soft prompt
optimizer = torch.optim.Adam([soft_prompt], lr=0.001)
Questo codice illustra come gli sviluppatori possono controllare quali parti di un sistema apprendono, un aspetto chiave dell'ottimizzazione delle reti neurali. reti neurali. Per i compiti standard di visione per compiti standard di visione computerizzata, modelli efficienti come Ultralytics YOLO11 sono di solito vengono addestrati utilizzando un fine-tuning standard su set di dati personalizzati, ma i principi dell'efficienza guidano lo sviluppo di architetture future come YOLO26.
La messa a punto rapida sta diventando sempre più importante nella Computer Vision (CV) con l'affermarsi di modelli modelli multimodali come CLIP. I ricercatori stanno esplorano la "sintonizzazione dei prompt visivi", in cui patch di pixel o token apprendibili vengono aggiunti alle immagini di ingresso per adattare i trasformatori di visione a nuovi compiti di rilevamento degli oggetti. trasformatori di visione a nuovi compiti di rilevamento di oggetti senza dover riqualificare i pesanti estrattori di caratteristiche. Questo rispecchia i guadagni di efficienza riscontrati nei modelli linguistici e si allinea alla tendenza del settore di con la tendenza del settore verso IA verde riducendo al minimo il consumo di energia durante l'addestramento.