Conoscere Llama 3 di Meta
Llama 3 di Meta è stato recentemente rilasciato ed è stato accolto con grande entusiasmo dalla comunità IA. Impariamo di più su Llama 3 - l'ultima novità nei progressi dell'IA di Meta.

Quando abbiamo fatto il punto sulle innovazioni dell'IA del primo trimestre del 2024, abbiamo visto che gli LLM, o modelli linguistici di grandi dimensioni, venivano rilasciati a destra e a manca da diverse organizzazioni. Continuando questa tendenza, il 18 aprile 2024, Meta ha rilasciato Llama 3, un LLM open-source di prossima generazione all'avanguardia.
Potresti pensare: È solo un altro LLM. Perché la comunità dell'IA ne è così entusiasta?
Sebbene tu possa ottimizzare (fine-tune) modelli come GPT-3 o Gemini per risposte personalizzate, essi non offrono piena trasparenza riguardo al loro funzionamento interno, come i dati di addestramento, i parametri del modello o gli algoritmi. Al contrario, Llama 3 di Meta è più trasparente, con la sua architettura e i pesi disponibili per il download. Per la comunità dell'IA, questo significa una maggiore libertà di sperimentare.
In questo articolo, impareremo cosa può fare Llama 3, come è nato e il suo impatto sul campo dell'IA. Andiamo subito al punto!
Link to this sectionL'evoluzione dei modelli Llama di Meta#
Prima di immergerci in Llama 3, diamo uno sguardo alle sue versioni precedenti.
Meta ha lanciato Llama 1 nel febbraio 2023, disponibile in quattro varianti con parametri che vanno da 7 miliardi a 65 miliardi. Nel machine learning, i "parametri" si riferiscono agli elementi del modello che vengono appresi dai dati di addestramento. A causa del minor numero di parametri, Llama 1 a volte faticava con la comprensione sfumata e forniva risposte incoerenti.
Poco dopo Llama 1, Meta ha lanciato Llama 2 nel luglio 2023. È stato addestrato su 2 trilioni di token. Un token rappresenta un pezzo di testo, come una parola o parte di essa, utilizzato come unità base di dati per l'elaborazione nel modello. Il modello presentava anche miglioramenti come una finestra di contesto raddoppiata di 4096 token per comprendere passaggi più lunghi e oltre 1 milione di annotazioni umane per ridurre gli errori. Nonostante questi miglioramenti, Llama 2 richiedeva ancora molta potenza di calcolo, qualcosa che Meta ha cercato di risolvere con Llama 3.
Link to this sectionPresentazione di Llama 3 di Meta#
Llama 3 arriva con quattro varianti che sono state addestrate su ben 15 trilioni di token. Oltre il 5% di quei dati di addestramento (circa 800 milioni di token) rappresentava dati in 30 lingue diverse. Tutte le varianti di Llama 3 possono essere eseguite su vari tipi di hardware consumer e hanno una lunghezza del contesto di 8k token.

Fig 1. Llama 3 contro Llama 2.
Le varianti del modello sono disponibili in due dimensioni: 8B e 70B, che indicano rispettivamente 8 miliardi e 70 miliardi di parametri. Ci sono anche due versioni, base e instruct. "Base" si riferisce alla versione standard pre-addestrata. "Instruct" è una versione ottimizzata tramite fine-tuning per applicazioni o domini specifici attraverso un addestramento aggiuntivo su dati pertinenti.
Queste sono le varianti del modello Llama 3:
- Meta-Llama-3-8b: Il modello base 8B fornisce funzionalità di IA fondamentali ed è ideale per attività generali come lo sviluppo di chatbot per il servizio clienti.
- Meta-Llama-3-8b-instruct: Una versione instruct basata sul fine-tuning del modello 8B che è ottimizzata per attività specifiche. Ad esempio, può essere utilizzata per creare strumenti educativi che spiegano argomenti complessi.
- Meta-Llama-3-70b: Il modello base 70B è progettato per applicazioni di IA ad alte prestazioni. Questo modello funzionerebbe bene per applicazioni come l'elaborazione di ampia letteratura biomedica per la scoperta di farmaci.
- Meta-Llama-3-70b-instruct: Questa versione è ottimizzata tramite fine-tuning dal modello 70B per applicazioni altamente precise, come l'analisi di documenti legali o medici, dove l'accuratezza è fondamentale.
Link to this sectionArchitettura del modello Llama 3 di Meta#
Come per qualsiasi altro progresso dell'IA di Meta, sono state messe in atto rigorose misure di controllo qualità per mantenere l'integrità dei dati e ridurre al minimo i pregiudizi durante lo sviluppo di Llama 3. Quindi, il prodotto finale è un modello potente creato in modo responsabile.
L'architettura del modello Llama 3 si distingue per la sua attenzione all'efficienza e alle prestazioni nelle attività di elaborazione del linguaggio naturale. Costruita su un framework basato su Transformer, enfatizza l'efficienza computazionale, specialmente durante la generazione di testo, utilizzando un'architettura solo decoder.
Il modello genera output basandosi esclusivamente sul contesto precedente senza un encoder per codificare gli input, rendendolo molto più veloce.

Fig 2. Architettura del modello responsabile di Llama 3.
I modelli Llama 3 presentano un tokenizer con un vocabolario di 128K token. Un vocabolario più ampio significa che i modelli possono comprendere ed elaborare meglio il testo. Inoltre, i modelli ora utilizzano la grouped query attention (GQA) per migliorare l'efficienza dell'inferenza. GQA è una tecnica che puoi immaginare come un riflettore che aiuta i modelli a concentrarsi sulle parti pertinenti dei dati di input per generare risposte più rapide e accurate.
Ecco alcuni dettagli più interessanti sull'architettura del modello Llama 3:
- Elaborazione dei documenti con consapevolezza dei confini: Llama 3 mantiene la chiarezza attraverso i confini dei documenti, il che è fondamentale per attività come la riassunzione.
- Migliore comprensione del codice: I dati di addestramento di Llama 3 includono quattro volte più campioni di codice, potenziando le sue capacità di programmazione.
- Solido controllo qualità: Misure rigorose, inclusi filtri euristici e rimozione NSFW, garantiscono l'integrità dei dati e riducono al minimo i pregiudizi.
Link to this sectionLlama 3 sta trasformando il modo in cui approcciamo l'addestramento dei modelli#
Per addestrare i modelli Llama 3 più grandi, sono stati combinati tre tipi di parallelizzazione: parallelizzazione dei dati, parallelizzazione del modello e parallelizzazione della pipeline.
La parallelizzazione dei dati divide i dati di addestramento su più GPU, mentre la parallelizzazione del modello partiziona l'architettura del modello per utilizzare la potenza computazionale di ogni GPU. La parallelizzazione della pipeline divide il processo di addestramento in fasi sequenziali, ottimizzando il calcolo e la comunicazione.
L'implementazione più efficiente ha raggiunto un notevole utilizzo del calcolo, superando i 400 TFLOPS per GPU quando addestrata su 16.000 GPU simultaneamente. Questi addestramenti sono stati condotti su due cluster di GPU costruiti su misura, ciascuno composto da 24.000 GPU. Questa sostanziale infrastruttura computazionale ha fornito la potenza necessaria per addestrare i modelli Llama 3 su larga scala in modo efficiente.
Per massimizzare l'uptime delle GPU, è stato sviluppato un nuovo stack di addestramento avanzato, automatizzando il rilevamento, la gestione e la manutenzione degli errori. L'affidabilità dell'hardware e i meccanismi di rilevamento sono stati notevolmente migliorati per mitigare i rischi di corruzione silenziosa dei dati. Inoltre, sono stati sviluppati nuovi sistemi di archiviazione scalabili per ridurre gli overhead di checkpointing e rollback.
Questi miglioramenti hanno portato a un tempo di addestramento complessivo con un'efficacia superiore al 95%. Insieme, hanno aumentato l'efficienza dell'addestramento di Llama 3 di circa tre volte rispetto a Llama 2. Questa efficienza non è solo impressionante; sta aprendo nuove possibilità per i metodi di addestramento dell'IA.
Link to this sectionAprire nuove porte con Llama 3#
Poiché Llama 3 è open-source, ricercatori e studenti possono studiarne il codice, condurre esperimenti e partecipare a discussioni su preoccupazioni etiche e pregiudizi. Tuttavia, Llama 3 non è solo per il mondo accademico. Sta facendo passi da gigante anche nelle applicazioni pratiche. Sta diventando la spina dorsale dell'interfaccia di chat di Meta AI, integrandosi perfettamente in piattaforme come Facebook, Instagram, WhatsApp e Messenger. Con Meta AI, gli utenti possono impegnarsi in conversazioni in linguaggio naturale, accedere a consigli personalizzati, eseguire attività e connettersi facilmente con gli altri.

Fig 3. Meta AI: Alimentato da Llama 3.
Link to this sectionConfrontare Llama 3 con altri LLM#
Llama 3 ottiene risultati eccezionali in diversi benchmark chiave che valutano le complesse capacità di comprensione e ragionamento linguistico. Ecco alcuni dei benchmark che testano vari aspetti delle capacità di Llama 3:
- Massive Multitask Language Understanding (MMLU) - Misura la sua conoscenza in vari domini.
- General Purpose Question Answering (GPQA) - Valuta la capacità del modello di generare risposte coerenti e corrette a una vasta gamma di domande di cultura generale.
- HumanEval - Si concentra su attività di programmazione e risoluzione di problemi, testando la capacità del modello di generare codice di programmazione funzionale e risolvere sfide algoritmiche.
Gli eccezionali risultati di Llama 3 in questi test lo distinguono chiaramente dai concorrenti come Gemma 7B di Google, Mistral 7B di Mistral e Claude 3 Sonnet di Anthropic. Secondo le statistiche pubblicate, in particolare il modello 70B, Llama 3 supera questi modelli in tutti i benchmark sopra citati.

Fig 4. Confronto di Llama 3 con altri LLM.
Link to this sectionMeta Llama 3 viene reso ampiamente accessibile#
Meta sta espandendo la portata di Llama 3 rendendolo disponibile su una varietà di piattaforme sia per gli utenti generici che per gli sviluppatori. Per gli utenti quotidiani, Llama 3 è integrato nelle popolari piattaforme di Meta come WhatsApp, Instagram, Facebook e Messenger. Gli utenti possono accedere a funzionalità avanzate come la ricerca in tempo reale e la capacità di generare contenuti creativi direttamente all'interno di queste app.
Llama 3 viene anche incorporato in tecnologie indossabili come gli smart glasses Ray-Ban Meta e il visore VR Meta Quest per esperienze interattive.
Llama 3 è disponibile su una varietà di piattaforme per gli sviluppatori, tra cui AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM e Snowflake. Puoi anche accedere a questi modelli direttamente da Meta. L'ampia gamma di opzioni rende facile per gli sviluppatori integrare queste avanzate funzionalità dei modelli di IA nei loro progetti, indipendentemente dal fatto che preferiscano lavorare direttamente con Meta o attraverso altre piattaforme popolari.
Link to this sectionIn sintesi#
I progressi nel machine learning continuano a trasformare il modo in cui interagiamo con la tecnologia ogni giorno. Llama 3 di Meta mostra che gli LLM non riguardano più solo la generazione di testo. Gli LLM stanno affrontando problemi complessi e gestendo più lingue. Nel complesso, Llama 3 sta rendendo l'IA più adattabile e accessibile che mai. Guardando al futuro, gli aggiornamenti pianificati per Llama 3 promettono ancora più capacità, come la gestione di più modelli e la comprensione di contesti più ampi.
Dai un'occhiata al nostro repository GitHub e unisciti alla nostra community per saperne di più sull'IA. Visita le nostre pagine delle soluzioni per vedere come l'IA viene applicata in campi come la produzione e l'agricoltura.






