Google PaliGemma 2: Approfondimenti sui modelli VLM avanzati
Unisciti a noi mentre esaminiamo da vicino i nuovi modelli vision-language di Google: PaliGemma 2. Questi modelli possono aiutare a comprendere e analizzare sia immagini che testo.

Il 5 dicembre 2024, Google ha introdotto PaliGemma 2, l'ultima versione del suo vision-language model (VLM) all'avanguardia. PaliGemma 2 è progettato per gestire attività che combinano immagini e testo, come la generazione di didascalie, la risposta a domande visive e il rilevamento di oggetti in elementi visivi.
Basandosi sull'originale PaliGemma, che era già un solido strumento per la didascalia multilingue e il riconoscimento degli oggetti, PaliGemma 2 apporta diversi miglioramenti chiave. Questi includono dimensioni del modello maggiori, supporto per immagini a risoluzione più elevata e prestazioni migliori in attività visive complesse. Questi aggiornamenti lo rendono ancora più flessibile ed efficace per una vasta gamma di utilizzi.
In questo articolo, esamineremo più da vicino PaliGemma 2, compreso il suo funzionamento, le caratteristiche principali e le applicazioni in cui eccelle. Iniziamo!
Link to this sectionDa Gemma 2 a PaliGemma 2#
PaliGemma 2 si basa su due tecnologie chiave: l'encoder di visione SigLIP e il modello linguistico Gemma 2. L'encoder SigLIP elabora dati visivi, come immagini o video, e li scompone in caratteristiche che il modello può analizzare. Nel frattempo, Gemma 2 gestisce il testo, consentendo al modello di comprendere e generare linguaggio multilingue. Insieme, formano un VLM progettato per interpretare e collegare in modo fluido le informazioni visive e testuali.
Ciò che rende PaliGemma 2 un importante passo avanti è la sua scalabilità e versatilità. A differenza della versione originale, PaliGemma 2 è disponibile in tre dimensioni: 3 miliardi (3B), 10 miliardi (10B) e 28 miliardi (28B) di parametri. Questi parametri sono come le impostazioni interne del modello e lo aiutano ad apprendere ed elaborare i dati in modo efficace. Supporta inoltre diverse risoluzioni di immagine (ad esempio, 224 x 224 pixel per attività rapide e 896 x 896 per analisi dettagliate), rendendolo adattabile a varie applicazioni.

Fig 1. Una panoramica di PaliGemma 2.
L'integrazione delle avanzate capacità linguistiche di Gemma 2 con l'elaborazione delle immagini di SigLIP rende PaliGemma 2 significativamente più intelligente. Può gestire attività come:
- Didascalie di immagini o video: il modello può generare descrizioni testuali dettagliate di elementi visivi, rendendolo utile per creare didascalie automaticamente.
- Visual question answering: PaliGemma 2 può rispondere a domande basate su immagini, come identificare oggetti, persone o azioni in una scena.
- Riconoscimento di oggetti: identifica ed etichetta gli oggetti all'interno di un'immagine, distinguendo ad esempio tra un gatto, un tavolo o un'auto in una foto.
PaliGemma 2 va oltre l'elaborazione separata di immagini e testo: li unisce in modi significativi. Ad esempio, può comprendere le relazioni in una scena, come riconoscere che "Il gatto è seduto sul tavolo", o identificare oggetti aggiungendo contesto, come riconoscere un monumento famoso.
Link to this sectionCome funzionano i modelli VLM PaliGemma 2 di Google#
Successivamente, esamineremo un esempio utilizzando il grafico mostrato nell'immagine seguente per comprendere meglio come PaliGemma 2 elabora dati visivi e testuali. Supponiamo che tu carichi questo grafico e chieda al modello: "Cosa rappresenta questo grafico?"

Fig 2. Un esempio delle capacità di PaliGemma 2.
Il processo inizia con l'encoder di visione SigLIP di PaliGemma 2 per analizzare le immagini ed estrarre caratteristiche chiave. Per un grafico, ciò include l'identificazione di elementi come assi, punti dati ed etichette. L'encoder è addestrato per catturare sia schemi generali che dettagli precisi. Utilizza anche l'optical character recognition (OCR) per rilevare ed elaborare qualsiasi testo incorporato nell'immagine. Queste caratteristiche visive vengono convertite in token, che sono rappresentazioni numeriche che il modello può elaborare. Questi token vengono quindi regolati utilizzando uno strato di proiezione lineare, una tecnica che assicura che possano essere combinati perfettamente con i dati testuali.
Allo stesso tempo, il modello linguistico Gemma 2 elabora la query di accompagnamento per determinarne il significato e l'intento. Il testo della query viene convertito in token, che vengono combinati con i token visivi di SigLIP per creare una rappresentazione multimodale, un formato unificato che collega dati visivi e testuali.
Utilizzando questa rappresentazione integrata, PaliGemma 2 genera una risposta passo dopo passo attraverso la decodifica autoregressiva, un metodo in cui il modello prevede una parte della risposta alla volta in base al contesto che ha già elaborato.
Link to this sectionCapacità chiave di PaliGemma 2#
Ora che abbiamo capito come funziona, esploriamo le caratteristiche chiave che rendono PaliGemma 2 un modello di visione-linguaggio affidabile:
- Flessibilità del fine-tuning: si adatta facilmente a dataset e attività specifici, offrendo buone prestazioni in applicazioni come la didascalia di immagini, il ragionamento spaziale e l'imaging medico.
- Dati di addestramento diversificati: addestrato su dataset come WebLI e OpenImages, che gli conferiscono forti capacità di riconoscimento degli oggetti e capacità di output multilingue.
- Integrazione OCR: include il riconoscimento ottico dei caratteri per estrarre e interpretare il testo dalle immagini, rendendolo ideale per l'analisi di documenti e altre attività basate sul testo.
- Output multilingue: genera didascalie e risposte in più lingue, ideale per applicazioni globali.
- Integrazione con strumenti: è compatibile con framework come Hugging Face Transformers, PyTorch e Keras, consentendo una facile distribuzione e sperimentazione.
Link to this sectionConfronto tra PaliGemma 2 e PaliGemma: cosa è migliorato?#
Dare un'occhiata all'architettura della prima versione di PaliGemma è un buon modo per vedere i miglioramenti di PaliGemma 2. Uno dei cambiamenti più notevoli è la sostituzione del modello linguistico originale Gemma con Gemma 2, che apporta sostanziali miglioramenti sia in termini di prestazioni che di efficienza.
Gemma 2, disponibile in dimensioni di 9B e 27B parametri, è stato progettato per offrire accuratezza e velocità di prim'ordine riducendo i costi di implementazione. Lo ottiene attraverso un'architettura riprogettata ottimizzata per l'efficienza dell'inferenza su varie configurazioni hardware, dalle potenti GPU a configurazioni più accessibili.

Fig 3. Uno sguardo alla prima versione di PaliGemma 2.
Di conseguenza, PaliGemma 2 è un modello altamente accurato. La versione 10B di PaliGemma 2 raggiunge un punteggio NES (Non-Entailment Sentence) inferiore di 20,3, rispetto al 34,3 del modello originale, il che significa meno errori fattuali nei suoi output. Questi progressi rendono PaliGemma 2 più scalabile, preciso e adattabile a una gamma più ampia di applicazioni, dalla didascalia dettagliata alla risposta a domande visive.
Link to this sectionApplicazioni di PaliGemma 2: utilizzi nel mondo reale per i modelli VLM#
PaliGemma 2 ha il potenziale per ridefinire i settori combinando perfettamente la comprensione visiva e linguistica. Ad esempio, per quanto riguarda l'accessibilità, può generare descrizioni dettagliate di oggetti, scene e relazioni spaziali, fornendo un'assistenza cruciale alle persone con disabilità visiva. Questa capacità aiuta gli utenti a comprendere meglio i propri ambienti, offrendo una maggiore indipendenza nelle attività quotidiane.

Fig 4. PaliGemma 2 può rendere il mondo un luogo più accessibile.
Oltre all'accessibilità, PaliGemma 2 sta avendo un impatto in vari settori, tra cui:
- E-commerce: il modello migliora la categorizzazione dei prodotti analizzando e descrivendo gli articoli nelle immagini, il che semplifica la gestione dell'inventario e migliora l'esperienza di ricerca per gli utenti.
- Sanità: supporta i professionisti medici interpretando immagini mediche, come raggi X e risonanze magnetiche, insieme a note cliniche per fornire diagnosi più accurate e informate.
- Istruzione: PaliGemma 2 aiuta gli educatori a creare materiali didattici descrittivi e accessibili generando didascalie e fornendo informazioni contestuali per le immagini.
- Creazione di contenuti: il modello automatizza il processo di generazione di didascalie e descrizioni visive per contenuti multimediali, risparmiando tempo per i creatori.
Link to this sectionProvalo tu stesso: PaliGemma 2#
Per provare PaliGemma 2, puoi iniziare con la demo interattiva di Hugging Face. Ti consente di esplorare le sue capacità in attività come la didascalia di immagini e la risposta a domande visive. Carica semplicemente un'immagine e poni al modello domande al riguardo o richiedi una descrizione della scena.

Fig 5. Una demo di PaliGemma 2 (Fonte: Hugging Face).
Se vuoi approfondire, ecco come puoi iniziare a sperimentare:
- Modelli pre-addestrati: puoi accedere a modelli pre-addestrati e codice da piattaforme come Hugging Face e Kaggle. Queste risorse forniscono tutto ciò di cui hai bisogno per iniziare a lavorare con il modello.
- Notebook: sono disponibili documentazione completa e notebook di esempio per familiarizzare con PaliGemma 2. Puoi iniziare con esempi di inferenza e sperimentare con il fine-tuning del modello sul tuo dataset per attività specifiche.
- Integrazioni: PaliGemma 2 è compatibile con framework ampiamente utilizzati come Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp, consentendoti di integrarlo nei tuoi flussi di lavoro esistenti senza sforzo.
Link to this sectionPro e contro di PaliGemma 2 di Google#
Dopo aver capito come iniziare con PaliGemma 2, diamo un'occhiata più da vicino ai suoi principali punti di forza e limiti da tenere a mente quando si utilizzano questi modelli.
Ecco cosa rende PaliGemma 2 un modello di visione-linguaggio di spicco:
- Guadagni in efficienza: Sfruttando l'architettura ottimizzata di Gemma 2, PaliGemma 2 offre prestazioni elevate minimizzando i costi di implementazione.
- Funzionalità di sicurezza migliorate: PaliGemma 2 include miglioramenti significativi alla sicurezza nel suo processo di addestramento, come un solido filtraggio dei dati di pre-addestramento per ridurre i bias e una valutazione rigorosa rispetto ai benchmark di sicurezza.
- Bassa latenza per configurazioni più piccole: il modello 3B offre tempi di inferenza più rapidi, rendendolo adatto a casi d'uso in cui la velocità è fondamentale, come raccomandazioni di prodotti e-commerce o sistemi di supporto live.
Nel frattempo, ecco alcune aree in cui PaliGemma 2 potrebbe incontrare limitazioni:
- Latenza: sebbene potenti, i modelli più grandi potrebbero affrontare problemi di latenza, specialmente quando distribuiti per attività che richiedono risposte immediate, come sistemi di AI interattivi in tempo reale.
- Dipendenza da grandi dataset: le prestazioni di PaliGemma 2 sono strettamente legate alla qualità e alla diversità dei suoi dataset di addestramento, il che potrebbe limitarne l'efficacia in domini sottorappresentati o lingue non incluse nei dati di addestramento.
- Elevati requisiti di risorse: nonostante le ottimizzazioni, le versioni con parametri 10B e 28B richiedono una potenza computazionale significativa, rendendole meno accessibili alle organizzazioni più piccole con risorse limitate.
Link to this sectionPunti chiave#
PaliGemma 2 è un affascinante progresso nella modellazione visione-linguaggio, che offre scalabilità migliorata, flessibilità di fine-tuning e accuratezza. Può fungere da strumento prezioso per applicazioni che vanno dalle soluzioni di accessibilità all'e-commerce fino alla diagnostica sanitaria e all'istruzione.
Sebbene presenti limitazioni, come i requisiti computazionali e la dipendenza da dati di alta qualità, i suoi punti di forza lo rendono una scelta pratica per affrontare attività complesse che integrano dati visivi e testuali. PaliGemma 2 può fornire una solida base per ricercatori e sviluppatori per esplorare ed espandere il potenziale dell'AI nelle applicazioni multimodali.
Entra a far parte della conversazione sull'AI dando un'occhiata al nostro repository GitHub e alla nostra community. Leggi come l'AI sta facendo passi da gigante in agricoltura e sanità! 🚀






