Esplora i fondamenti dei modelli linguistici di grandi dimensioni (LLM). Scopri l'architettura Transformer, la tokenizzazione e come combinare gli LLM con Ultralytics .
Un modello linguistico di grandi dimensioni (LLM) è un tipo sofisticato di intelligenza artificiale (AI) addestrato su enormi set di dati per comprendere, generare e manipolare il linguaggio umano. Questi modelli rappresentano un'evoluzione significativa nel deep learning (DL), utilizzando reti neurali con miliardi di parametri per catturare modelli linguistici complessi, grammatica e relazioni semantiche. Alla base, la maggior parte dei moderni LLM si affida all' architettura Transformer, che consente loro di elaborare sequenze di dati in parallelo anziché in sequenza. Questa architettura impiega un meccanismo di auto-attenzione, che consente al modello di ponderare l'importanza delle diverse parole in una frase l'una rispetto all'altra, indipendentemente dalla loro distanza nel testo.
La funzionalità di un LLM inizia con la tokenizzazione, un processo in cui il testo grezzo viene suddiviso in unità più piccole chiamate token (parole o sottoparole). Durante la fase di addestramento del modello, il sistema analizza petabyte di testo provenienti da Internet, libri e articoli. Si impegna in un apprendimento non supervisionato per prevedere il prossimo token in una sequenza, apprendendo efficacemente la struttura statistica del linguaggio.
Dopo questa formazione iniziale, gli sviluppatori spesso applicano messa a punto per specializzare il modello per compiti distinti, come analisi mediche o assistenza alla codifica. Questa adattabilità è il motivo per cui organizzazioni come lo Stanford Center for Research on Foundation Models classify come "modelli di base", ampie basi su cui vengono costruite applicazioni specifiche.
Gli LLM hanno superato la fase della ricerca teorica per approdare ad applicazioni pratiche e di grande impatto in vari settori industriali:
Mentre gli LLM standard elaborano il testo, il settore si sta orientando verso l' IA multimodale. L'esempio seguente dimostra come i prompt linguistici possano controllare le attività di visione artificiale utilizzando YOLO, un modello che comprende i descrittori di testo per il rilevamento a vocabolario aperto.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
È importante distinguere gli LLM da termini più generici o paralleli:
Nonostante le loro capacità, gli LLM devono affrontare sfide relative al bias nell'IA, poiché possono riprodurre inavvertitamente i pregiudizi presenti nei loro dati di addestramento. Inoltre, l'enorme potenza di calcolo necessaria per addestrare modelli come GPT-4 o Google solleva preoccupazioni sul consumo energetico. La ricerca è attualmente incentrata sulla quantizzazione dei modelli per rendere questi sistemi abbastanza efficienti da funzionare su hardware edge.
Per approfondimenti tecnici più dettagliati, il documento originale Attention Is All You Need fornisce la teoria di base per i Transformer. È inoltre possibile esplorare come NVIDIA sta ottimizzando l'hardware per questi carichi di lavoro massicci.