FastVLM: Apple presenta il suo nuovo modello di linguaggio di visione veloce

Abirami Vina

4 minuti di lettura

8 agosto 2025

Apple presenta FastVLM al CVPR 2025. Questo modello di linguaggio di visione open-source è dotato del codificatore FastViTHD, che garantisce un time-to-first-token fino a 85 volte più veloce.

Alla conferenza CVPR 2025, Apple ha presentato un nuovo modello di intelligenza artificiale open-source chiamato FastVLM. È costruito per comprendere sia le immagini che il linguaggio e funziona su dispositivi Apple come iPhone, iPad e Mac. Ciò significa che può fornire rapidamente risultati intelligenti, senza inviare i dati al cloud.

Ciò che rende FastVLM particolarmente interessante è la sua velocità ed efficienza. Apple ha sviluppato un nuovo codificatore di visione chiamato FastViTHD, che aiuta il modello a interpretare immagini di alta qualità utilizzando meno memoria e meno energia. Tutta l'elaborazione avviene localmente sul dispositivo, con conseguenti tempi di risposta più rapidi, preservando la privacy dell'utente.

In questo articolo analizzeremo come funziona FastVLM, cosa lo distingue e perché questo rilascio di Apple potrebbe rappresentare un significativo passo avanti per le applicazioni AI di tutti i giorni sui vostri dispositivi.

Comprendere i modelli linguistici di visione (VLM)

Prima di scoprire cosa rende speciale FastVLM, vediamo cosa significa il termine "VLM" nel suo nome. Si tratta di un modello di visione-linguaggio, progettato per comprendere e collegare i contenuti visivi con il linguaggio.

I VLM uniscono comprensione visiva e linguaggio, consentendo loro di svolgere compiti come descrivere una foto, rispondere a domande su uno screenshot o estrarre testo da un documento. I modelli visuo-linguistici funzionano in genere in due parti: una elabora l'immagine e la converte in dati, mentre l'altra interpreta tali dati per generare una risposta che può essere letta o ascoltata.

Potreste aver già utilizzato questo tipo di innovazione AI senza nemmeno accorgervene. Le applicazioni che scansionano le ricevute, leggono le carte d'identità, generano didascalie per le immagini o aiutano le persone ipovedenti a interagire con i loro schermi spesso si affidano a modelli di linguaggio visivo che funzionano silenziosamente in background.

Che cos'è FastVLM?

Apple ha costruito FastVLM per svolgere gli stessi compiti di altri modelli di linguaggio visivo, ma con maggiore velocità, maggiore privacy e prestazioni ottimizzate sui propri dispositivi. È in grado di comprendere il contenuto di un'immagine e di rispondere con un testo, ma a differenza di molti modelli che si affidano a server cloud, FastVLM può essere eseguito interamente sul vostro iPhone, iPad o Mac.

In genere, i VLM ottengono risultati migliori con immagini ad alta risoluzione. Ad esempio, come mostrato di seguito, FastVLM è riuscito a identificare correttamente un cartello stradale come "Non entrare" solo quando gli è stata fornita una versione ad alta risoluzione dell'immagine. Tuttavia, gli input ad alta risoluzione di solito rallentano i modelli. È qui che FastViTHD fa la differenza.

Figura 1. Prestazioni di FastVLM su immagini a bassa e ad alta risoluzione.(Fonte)

Il nuovo codificatore di visione di Apple, FastViTHD, aiuta FastVLM a elaborare immagini di alta qualità in modo più efficiente, utilizzando meno memoria e meno energia. In particolare, FastViTHD è abbastanza leggero da funzionare senza problemi anche sui dispositivi più piccoli.

Inoltre, FastVLM è disponibile pubblicamente sul repository FastVLM GitHub, dove gli sviluppatori possono accedere al codice sorgente, apportare modifiche e utilizzarlo nelle proprie applicazioni in conformità ai termini di licenza di Apple.

Confronto tra FastVLM e altri modelli VLM

Rispetto ad altri modelli di linguaggio di visione, FastVLM è ottimizzato per funzionare su dispositivi di uso quotidiano come smartphone e laptop. Nei test sulle prestazioni, FastVLM ha generato la prima parola o l'output fino a 85 volte più velocemente di modelli come LLaVA-OneVision-0.5B. 

Figura 2. Confronto delle prestazioni di FastVLM con altri modelli.(Fonte)

Ecco un assaggio di alcuni dei benchmark standard su cui FastVLM è stato valutato:

  • DocVQA (Document Visual Question Answering): Questo benchmark valuta la capacità del modello di leggere e comprendere le informazioni testuali nei documenti, come moduli o pagine scannerizzate.
  • TextVQA (Text-based Visual Question Answering): Valuta la capacità del modello di interpretare immagini che contengono testo incorporato e di rispondere accuratamente alle relative domande.
  • GQA (Graph Question Answering): Questo compito mette alla prova le capacità di ragionamento del modello chiedendogli di comprendere le relazioni tra oggetti e scene all'interno di un'immagine.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Misura le prestazioni del modello in un'ampia gamma di materie e formati accademici, combinando la comprensione visiva e testuale.
  • SeedBench (Valutazione standard di dati migliorati per il benchmarking): Questo benchmark esplora le capacità generali del modello nella comprensione visiva e nel ragionamento in più domini.

In tutti questi benchmark, FastVLM ha ottenuto risultati competitivi utilizzando meno risorse. Porta l'intelligenza artificiale visiva su dispositivi di uso quotidiano come telefoni, tablet e computer portatili.

L'efficiente codificatore di visione di FastVLM: FastViTHD

Diamo poi un'occhiata più da vicino a FastViTHD, il codificatore di visione che svolge un ruolo cruciale nelle prestazioni di elaborazione delle immagini di FastVLM.

La maggior parte dei modelli di linguaggio di visione suddivide un'immagine in migliaia di piccoli frammenti chiamati tokens. Maggiore è il numero di tokens, maggiore è il tempo e la potenza necessari al modello per comprendere l'immagine. Questo può rendere le cose lente, soprattutto sui telefoni o sui computer portatili.

Figura 3. Come un codificatore di visione elabora un'immagine.(Fonte)

FastViTHD evita il rallentamento dovuto all'elaborazione di un numero eccessivo di token, utilizzandone un numero inferiore, pur continuando a comprendere l'intera immagine. Combina due approcci: i trasformatori, che sono bravi a modellare schemi e relazioni, e i livelli convoluzionali, che sono efficienti nell'elaborazione dei dati visivi. Il risultato è un sistema che funziona più velocemente e utilizza meno memoria.

Secondo Apple, FastViTHD è fino a 3,4 volte più piccolo di alcuni codificatori di visione tradizionali, pur mantenendo un'elevata precisione. Invece di affidarsi a tecniche di ottimizzazione del modello come il token pruning (rimozione delle patch di immagine meno importanti per velocizzare l'elaborazione), raggiunge l'efficienza attraverso un'architettura più semplice e snella.

Varianti del modello e pipeline di addestramento di FastVLM

Apple ha rilasciato FastVLM in tre diverse dimensioni: 0,5B, 1,5B e 7B parametri (dove "B" sta per billion, riferendosi al numero di pesi addestrabili nel modello). Ogni versione è progettata per adattarsi a diversi tipi di dispositivi. I modelli più piccoli possono essere eseguiti su telefoni e tablet, mentre il modello più grande da 7B è più adatto ai computer fissi o alle attività più impegnative.

Ciò offre agli sviluppatori la flessibilità di scegliere ciò che è meglio per le loro applicazioni. Possono costruire qualcosa di veloce e leggero per i dispositivi mobili o qualcosa di più complesso per i sistemi più grandi, il tutto utilizzando la stessa architettura del modello sottostante.

Apple ha addestrato le varianti del modello FastVLM utilizzando la pipeline LLaVA-1.5, un framework per l'allineamento di modelli di visione e di linguaggio. Per la componente linguistica, hanno valutato FastVLM utilizzando modelli open-source esistenti come Qwen e Vicuna, noti per la generazione di testi naturali e coerenti. Questa configurazione consente a FastVLM di elaborare immagini sia semplici che complesse e di produrre risposte leggibili e pertinenti.

Il significato di FastVLM: l'efficiente approccio di Apple all'intelligenza artificiale

Vi starete chiedendo: perché l'efficiente elaborazione delle immagini di FastVLM è importante? È importante per la fluidità con cui le applicazioni possono lavorare in tempo reale senza dipendere dal cloud. FastVLM è in grado di gestire immagini ad alta risoluzione, fino a 1152 x 1152 pixel, pur rimanendo abbastanza veloce e leggero da poter essere eseguito direttamente sul dispositivo.

Ciò significa che le applicazioni possono descrivere ciò che la fotocamera vede, scansionare le ricevute mentre vengono acquisite o rispondere ai cambiamenti sullo schermo, il tutto mantenendo tutto a livello locale. È particolarmente utile per settori come l'istruzione, l'accessibilità, la produttività e la fotografia.

Poiché FastViTHD è efficiente anche quando si tratta di immagini di grandi dimensioni, aiuta a mantenere i dispositivi reattivi e freschi. Funziona con tutti i modelli, compreso il più piccolo, che funziona su iPhone entry-level. Ciò significa che le stesse funzioni AI possono funzionare su telefoni, tablet e Mac.

Applicazioni di FastVLM

FastVLM è in grado di alimentare un'ampia gamma di applicazioni, grazie ai suoi vantaggi chiave quali velocità, efficienza e privacy sul dispositivo. Ecco alcuni modi in cui può essere utilizzato:

  • Lettura di documenti: Può scansionare ricevute, moduli o carte d'identità ed estrarre solo le informazioni rilevanti. Può concentrarsi su aree specifiche di un'immagine, utile per le applicazioni che richiedono un'estrazione rapida e precisa del testo.
  • Didascalie delle immagini: Analizzando una foto, può generare una descrizione chiara di ciò che è presente nell'immagine. Questo supporta le funzioni delle app della fotocamera, delle gallerie fotografiche o di qualsiasi strumento che tragga vantaggio dalla comprensione visiva in tempo reale.
  • Supporto all'accessibilità: FastVLM è in grado di descrivere i contenuti sullo schermo per gli utenti non vedenti o ipovedenti, facilitando la navigazione e l'utilizzo di pulsanti, menu ed elementi del layout.

Assistenti AI sul dispositivo: FastVLM può funzionare bene con gli assistenti AI che hanno bisogno di capire rapidamente cosa c'è sullo schermo. Poiché viene eseguito direttamente sul dispositivo e mantiene la riservatezza dei dati, può aiutare a svolgere compiti come la lettura del testo, l'identificazione di pulsanti o icone e la guida degli utenti in tempo reale senza dover inviare informazioni al cloud.

Figura 4. FastVLM può essere utilizzato per il riconoscimento del testo e la risposta a domande visive.(Fonte)

Punti di forza

FastVLM porta l'AI in linguaggio di visione sui dispositivi Apple, combinando velocità, privacy ed efficienza. Grazie al suo design leggero e al rilascio open-source, consente la comprensione delle immagini in tempo reale nelle applicazioni mobili e desktop. 

Ciò contribuisce a rendere l'IA più pratica e accessibile per l'uso quotidiano e fornisce agli sviluppatori una solida base per costruire applicazioni utili e incentrate sulla privacy. In prospettiva, è probabile che i modelli di linguaggio della visione svolgeranno un ruolo importante nel modo in cui interagiamo con la tecnologia, rendendo l'IA più reattiva, consapevole del contesto e utile nelle situazioni quotidiane.

Esplorate il nostro repository GitHub per saperne di più sull'IA. Unitevi alla nostra attiva comunità e scoprite le innovazioni in settori come l'IA nell' industria automobilistica e l'IA di visione nella produzione. Per iniziare a lavorare con la computer vision, date un'occhiata alle nostre opzioni di licenza.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti