Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

PaliGemma 2 di Google: approfondimenti sui modelli VLM avanzati

Abirami Vina

4 minuti di lettura

6 dicembre 2024

Unisciti a noi mentre esaminiamo più da vicino i nuovi modelli di linguaggio visivo di Google: PaliGemma 2. Questi modelli possono aiutare a comprendere e analizzare sia immagini che testo.

Il 5 dicembre 2024, Google ha presentato PaliGemma 2, l'ultima versione del suo modello di visione-linguaggio (VLM) all'avanguardia. PaliGemma 2 è progettato per gestire attività che combinano immagini e testo, come la generazione di didascalie, la risposta a domande visive e il rilevamento di oggetti nelle immagini. 

Basandosi sull'originale PaliGemma, che era già un potente strumento per la sottotitolazione multilingue e il riconoscimento degli oggetti, PaliGemma 2 offre diversi miglioramenti chiave. Questi includono dimensioni del modello maggiori, supporto per immagini a risoluzione più elevata e prestazioni migliori su attività visive complesse. Questi aggiornamenti lo rendono ancora più flessibile ed efficace per una vasta gamma di utilizzi.

In questo articolo, esamineremo più da vicino PaliGemma 2, incluso come funziona, le sue caratteristiche principali e le applicazioni in cui eccelle. Iniziamo!

Da Gemma 2 a PaliGemma 2

PaliGemma 2 è costruito su due tecnologie chiave: il codificatore di visione SigLIP e il modello linguistico Gemma 2. Il codificatore SigLIP elabora i dati visivi, come immagini o video, e li suddivide in funzionalità che il modello può analizzare. Nel frattempo, Gemma 2 gestisce il testo, consentendo al modello di comprendere e generare linguaggio multilingue. Insieme, formano un VLM, progettato per interpretare e connettere informazioni visive e testuali senza problemi.

Ciò che rende PaliGemma 2 un importante passo avanti sono la sua scalabilità e versatilità. A differenza della versione originale, PaliGemma 2 è disponibile in tre dimensioni: 3 miliardi (3B), 10 miliardi (10B) e 28 miliardi (28B) di parametri. Questi parametri sono come le impostazioni interne del modello, che lo aiutano ad apprendere ed elaborare i dati in modo efficace. Supporta anche diverse risoluzioni di immagine (ad esempio, 224 x 224 pixel per attività rapide e 896 x 896 per analisi dettagliate), rendendolo adattabile a varie applicazioni.

Fig 1. Panoramica di PaliGemma 2.

L'integrazione delle funzionalità avanzate di linguaggio di Gemma 2 con l'elaborazione delle immagini di SigLIP rende PaliGemma 2 significativamente più intelligente. Può gestire attività come:

  • Sottotitolaggio di immagini o video: Il modello può generare descrizioni testuali dettagliate delle immagini, rendendolo utile per la creazione automatica di didascalie.
  • Visual question answering: PaliGemma 2 può rispondere a domande basate su immagini, come l'identificazione di oggetti, persone o azioni in una scena.
  • Riconoscimento di oggetti (Object recognition): identifica ed etichetta gli oggetti all'interno di un'immagine, come distinguere tra un gatto, un tavolo o un'auto in una foto.

PaliGemma 2 va oltre l'elaborazione separata di immagini e testo: li unisce in modi significativi. Ad esempio, può comprendere le relazioni in una scena, come riconoscere che "Il gatto è seduto sul tavolo", o identificare oggetti aggiungendo contesto, come riconoscere un famoso punto di riferimento. 

Come funzionano i modelli VLM PaliGemma 2 di Google

Successivamente, esamineremo un esempio utilizzando il grafico mostrato nell'immagine sottostante per comprendere meglio come PaliGemma 2 elabora i dati visivi e testuali. Supponiamo di caricare questo grafico e di chiedere al modello: "Cosa rappresenta questo grafico?"

Fig. 2. Un esempio delle capacità di PaliGemma 2.

Il processo inizia con l'encoder di visione SigLIP di PaliGemma 2 per analizzare le immagini ed estrarre le caratteristiche chiave. Per un grafico, questo include l'identificazione di elementi come assi, punti dati ed etichette. L'encoder è addestrato per catturare sia schemi ampi che dettagli fini. Utilizza anche il riconoscimento ottico dei caratteri (OCR) per rilevare ed elaborare qualsiasi testo incorporato nell'immagine. Queste caratteristiche visive vengono convertite in token, che sono rappresentazioni numeriche che il modello può elaborare. Questi token vengono quindi regolati utilizzando un livello di proiezione lineare, una tecnica che garantisce che possano essere combinati senza problemi con i dati testuali.

Allo stesso tempo, il modello linguistico Gemma 2 elabora la query di accompagnamento per determinarne il significato e l'intento. Il testo della query viene convertito in token, e questi vengono combinati con i token visivi di SigLIP per creare una rappresentazione multimodale, un formato unificato che collega dati visivi e testuali. 

Utilizzando questa rappresentazione integrata, PaliGemma 2 genera una risposta passo dopo passo attraverso la decodifica autoregressiva, un metodo in cui il modello prevede una parte della risposta alla volta in base al contesto che ha già elaborato. 

Funzionalità chiave di PaliGemma 2

Ora che abbiamo capito come funziona, esploriamo le caratteristiche principali che rendono PaliGemma 2 un modello di visione-linguaggio affidabile:

  • Flessibilità di fine-tuning: Si adatta facilmente a dataset e task specifici, ottenendo buoni risultati in applicazioni come la didascalia di immagini, il ragionamento spaziale e l'imaging medicale.
  • Dati di addestramento diversificati: Addestrato su set di dati come WebLI e OpenImages, che gli conferiscono forti capacità di riconoscimento degli oggetti e capacità di output multilingue.
  • Integrazione OCR: Include il riconoscimento ottico dei caratteri per estrarre e interpretare il testo dalle immagini, rendendolo ideale per l'analisi dei documenti e altre attività basate sul testo.
  • Output multilingue: Genera didascalie e risposte in più lingue, ideale per applicazioni globali.
  • Integrazione con strumenti: è compatibile con framework come Hugging Face Transformers, PyTorch e Keras, consentendo una facile implementazione e sperimentazione.

Confronto tra PaliGemma 2 e PaliGemma: cosa è migliorato?

Analizzare l'architettura della prima versione di PaliGemma è un buon modo per vedere i miglioramenti di PaliGemma 2. Uno dei cambiamenti più notevoli è la sostituzione del modello linguistico Gemma originale con Gemma 2, che apporta notevoli miglioramenti sia in termini di prestazioni che di efficienza. 

Gemma 2, disponibile nelle dimensioni di 9B e 27B parametri, è stato progettato per offrire accuratezza e velocità ai vertici della categoria, riducendo al contempo i costi di implementazione. Raggiunge questo obiettivo attraverso un'architettura riprogettata e ottimizzata per l'efficienza dell'inferenza su varie configurazioni hardware, dalle potenti GPU a configurazioni più accessibili.

Fig 3. Uno sguardo alla prima versione di PaliGemma 2.

Di conseguenza, PaliGemma 2 è un modello altamente accurato. La versione 10B di PaliGemma 2 raggiunge un punteggio NES (Non-Entailment Sentence) inferiore, pari a 20,3, rispetto al 34,3 del modello originale, il che significa meno errori fattuali nei suoi output. Questi progressi rendono PaliGemma 2 più scalabile, preciso e adattabile a una gamma più ampia di applicazioni, dalla didascalia dettagliata alla risposta a domande visive.

Applicazioni di PaliGemma 2: usi reali per modelli VLM

PaliGemma 2 ha il potenziale per ridefinire i settori combinando perfettamente la comprensione visiva e linguistica. Ad esempio, per quanto riguarda l'accessibilità, può generare descrizioni dettagliate di oggetti, scene e relazioni spaziali, fornendo un'assistenza fondamentale alle persone con problemi di vista. Questa capacità aiuta gli utenti a comprendere meglio il loro ambiente, offrendo maggiore indipendenza quando si tratta di attività quotidiane. 

Fig. 4. PaliGemma 2 può rendere il mondo un luogo più accessibile.

Oltre all'accessibilità, PaliGemma 2 sta avendo un impatto in vari settori, tra cui:

  • E-commerce: Il modello migliora la categorizzazione dei prodotti analizzando e descrivendo gli articoli nelle immagini, il che semplifica la gestione dell'inventario e migliora l'esperienza di ricerca per gli utenti.
  • Sanità: Supporta i professionisti medici nell'interpretazione di immagini mediche, come radiografie e risonanze magnetiche, insieme alle note cliniche per fornire diagnosi più accurate e informate.
  • Istruzione: PaliGemma 2 aiuta gli educatori a creare materiali didattici descrittivi e accessibili generando didascalie e fornendo informazioni contestuali per le immagini.
  • Creazione di contenuti: Il modello automatizza il processo di generazione di didascalie e descrizioni visive per contenuti multimediali, facendo risparmiare tempo ai creatori.

Provalo tu stesso: PaliGemma 2

Per provare PaliGemma 2, puoi iniziare con la demo interattiva di Hugging Face. Ti consente di esplorare le sue capacità in attività come la didascalia di immagini e la risposta a domande visive. Basta caricare un'immagine e porre al modello domande al riguardo o richiedere una descrizione della scena.

Fig 5. Una demo di PaliGemma 2 (Fonte: huggingface).

Se desideri approfondire, ecco come puoi mettere in pratica:

  • Modelli pre-addestrati (Pre-trained models): è possibile accedere a modelli e codice pre-addestrati da piattaforme come Hugging Face e Kaggle. Queste risorse forniscono tutto il necessario per iniziare a lavorare con il modello.
  • Notebooks: Sono disponibili documentazione completa ed esempi di notebook per familiarizzare con PaliGemma 2. Puoi iniziare con esempi di inferenza e sperimentare con il fine-tuning del modello sul tuo set di dati per attività specifiche.
  • Integrazioni: PaliGemma 2 è compatibile con framework ampiamente utilizzati come Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp, consentendoti di integrarlo facilmente nei tuoi flussi di lavoro esistenti.

Pro e contro di PaliGemma 2 di Google

Dopo aver capito come iniziare con PaliGemma 2, diamo un'occhiata più da vicino ai suoi principali punti di forza e debolezze da tenere a mente quando si utilizzano questi modelli. 

Ecco cosa distingue PaliGemma 2 come modello di visione-linguaggio:

  • Guadagni di efficienza: Sfruttando l'architettura ottimizzata di Gemma 2, PaliGemma 2 offre prestazioni elevate riducendo al minimo i costi di implementazione.
  • Funzionalità di sicurezza avanzate: PaliGemma 2 include significativi miglioramenti di sicurezza nel suo processo di training, come il filtraggio robusto dei dati di pre-training per ridurre i bias e una valutazione rigorosa rispetto ai benchmark di sicurezza.
  • Bassa latenza per configurazioni più piccole: Il modello 3B offre tempi di inferenza più rapidi, rendendolo adatto per casi d'uso in cui la velocità è fondamentale, come i consigli sui prodotti di e-commerce o i sistemi di supporto live.

Nel frattempo, ecco alcune aree in cui PaliGemma 2 potrebbe incontrare delle limitazioni:

  • Latenza: Sebbene potenti, i modelli più grandi possono presentare problemi di latenza, specialmente quando vengono implementati per attività che richiedono risposte immediate, come i sistemi di IA interattivi in tempo reale.
  • Dipendenza da dataset di grandi dimensioni: Le prestazioni di PaliGemma 2 sono strettamente legate alla qualità e alla diversità dei suoi dataset di training, il che potrebbe limitarne l'efficacia in domini sottorappresentati o lingue non incluse nei dati di training.
  • Elevati requisiti di risorse: Nonostante le ottimizzazioni, le versioni con parametri 10B e 28B richiedono una potenza di calcolo significativa, rendendole meno accessibili alle organizzazioni più piccole con risorse limitate.

Punti chiave

PaliGemma 2 è un affascinante progresso nella modellazione visione-linguaggio, che offre scalabilità, flessibilità di fine-tuning e accuratezza migliorate. Può servire come strumento prezioso per applicazioni che vanno dalle soluzioni di accessibilità e l'e-commerce alla diagnostica sanitaria e l'istruzione. 

Sebbene presenti dei limiti, come i requisiti computazionali e la dipendenza da dati di alta qualità, i suoi punti di forza la rendono una scelta pratica per affrontare compiti complessi che integrano dati visivi e testuali. PaliGemma 2 può fornire una solida base per ricercatori e sviluppatori per esplorare ed espandere il potenziale dell'IA nelle applicazioni multimodali.

Partecipa alla conversazione sull'AI consultando il nostro repository GitHub e la community. Scopri come l'AI sta facendo progressi in agricoltura e sanità! 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti