Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

FastVLM: Apple introduce il suo nuovo modello vision language veloce

Apple presenta FastVLM al CVPR 2025. Questo modello vision-language open-source è dotato dell'encoder FastViTHD, che offre un time-to-first-token fino a 85 volte più veloce.

ABAbirami Vina
4 min read
Il modello vision language veloce FastVLM di Apple

Alla conferenza CVPR 2025, Apple ha presentato un nuovo modello di IA open source chiamato FastVLM. È progettato per comprendere sia immagini che linguaggio e viene eseguito su dispositivi Apple come iPhone, iPad e Mac. Ciò significa che può fornire risultati intelligenti rapidamente, senza inviare i tuoi dati al cloud.

Ciò che rende FastVLM particolarmente interessante è la sua velocità ed efficienza. Apple ha sviluppato un nuovo codificatore di visione chiamato FastViTHD, che aiuta il modello a interpretare immagini di alta qualità utilizzando meno memoria ed energia. Tutta l'elaborazione avviene localmente sul dispositivo, con conseguenti tempi di risposta più rapidi e una maggiore tutela della privacy dell'utente.

In questo articolo, esploreremo come funziona FastVLM, cosa lo distingue e perché questo rilascio di Apple potrebbe rappresentare un significativo passo avanti per le applicazioni IA quotidiane sui tuoi dispositivi.

Link to this sectionCapire i modelli di visione e linguaggio (VLM)#

Prima di addentrarci in ciò che rende speciale FastVLM, spieghiamo cosa significa "VLM" nel suo nome. Si riferisce a un modello di visione e linguaggio, progettato per comprendere e connettere il contenuto visivo con il linguaggio.

I VLM uniscono la comprensione visiva e il linguaggio, permettendo loro di eseguire attività come descrivere una foto, rispondere a domande su uno screenshot o estrarre testo da un documento. I modelli di visione e linguaggio operano solitamente in due parti: una elabora l'immagine e la converte in dati, mentre l'altra interpreta tali dati per generare una risposta che puoi leggere o ascoltare.

Potresti aver già utilizzato questo tipo di innovazione IA senza nemmeno rendertene conto. Le app che scansionano ricevute, leggono carte d'identità, generano didascalie per immagini o aiutano le persone ipovedenti a interagire con i loro schermi si affidano spesso a modelli di visione e linguaggio che operano silenziosamente in background.

Link to this sectionCos'è FastVLM?#

Apple ha costruito FastVLM per eseguire le stesse attività di altri modelli di visione e linguaggio, ma con maggiore velocità, più privacy e prestazioni ottimizzate sui propri dispositivi. Può comprendere il contenuto di un'immagine e rispondere con del testo, ma a differenza di molti modelli che si affidano a server cloud, FastVLM può essere eseguito interamente sul tuo iPhone, iPad o Mac.

I VLM generalmente offrono prestazioni migliori con immagini ad alta risoluzione. Ad esempio, come mostrato di seguito, FastVLM è riuscito a identificare correttamente un segnale stradale come “Do Not Enter” solo quando gli è stata fornita una versione dell'immagine ad alta risoluzione. Tuttavia, gli input ad alta risoluzione solitamente rallentano i modelli. È qui che FastViTHD fa la differenza.

Prestazioni di FastVLM su immagini a bassa e alta risoluzione

Fig 1. Prestazioni di FastVLM su immagini a bassa vs alta risoluzione. (Fonte)

Il nuovo codificatore di visione di Apple, FastViTHD, aiuta FastVLM a elaborare immagini di alta qualità in modo più efficiente, usando meno memoria ed energia. Nello specifico, FastViTHD è abbastanza leggero da funzionare senza problemi anche su dispositivi più piccoli.

Inoltre, FastVLM è disponibile pubblicamente sul repository GitHub di FastVLM, dove gli sviluppatori possono accedere al codice sorgente, apportare modifiche e utilizzarlo nelle proprie app in conformità con i termini di licenza di Apple.

Link to this sectionConfronto tra FastVLM e altri modelli VLM#

Rispetto ad altri modelli di visione e linguaggio, FastVLM è ottimizzato per funzionare su dispositivi di uso quotidiano come smartphone e laptop. Nei test di prestazioni, FastVLM ha generato la sua prima parola o il suo primo output fino a 85 volte più velocemente rispetto a modelli come LLaVA-OneVision-0.5B.

Confronto delle prestazioni di FastVLM con altri modelli

Fig 2. Confronto delle prestazioni di FastVLM con altri modelli. (Fonte)

Ecco una panoramica di alcuni dei benchmark standard su cui FastVLM è stato valutato:

  • DocVQA (Document Visual Question Answering): Questo benchmark valuta quanto bene il modello riesca a leggere e comprendere informazioni testuali in documenti, come moduli o pagine scansionate.
  • TextVQA (Text-based Visual Question Answering): Valuta la capacità del modello di interpretare immagini che contengono testo incorporato e rispondere accuratamente a domande correlate.
  • GQA (Graph Question Answering): Questa attività mette alla prova le capacità di ragionamento del modello richiedendogli di comprendere le relazioni tra oggetti e scene all'interno di un'immagine.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Misura le prestazioni del modello su una vasta gamma di materie accademiche e formati, combinando la comprensione visiva e testuale.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Questo benchmark esplora le capacità generali del modello nella comprensione visiva e nel ragionamento attraverso molteplici domini.

In questi benchmark, FastVLM ha ottenuto risultati competitivi utilizzando meno risorse. Porta l'IA visiva pratica su dispositivi di tutti i giorni come telefoni, tablet e laptop.

Link to this sectionIl codificatore di visione efficiente di FastVLM: FastViTHD#

Successivamente, diamo uno sguardo più approfondito a FastViTHD, il codificatore di visione che svolge un ruolo cruciale nelle prestazioni di elaborazione delle immagini di FastVLM.

La maggior parte dei modelli di visione e linguaggio divide un'immagine in migliaia di piccoli frammenti chiamati token. Più token ci sono, più tempo ed energia servono al modello per comprendere l'immagine. Questo può rallentare le operazioni, specialmente su telefoni o laptop.

Come un encoder di visione elabora un'immagine

Fig 3. Come un codificatore di visione elabora un'immagine. (Fonte)

FastViTHD evita il rallentamento derivante dall'elaborazione di troppi token utilizzandone meno, pur comprendendo l'intera immagine. Combina due approcci: i transformer, che sono bravi a modellare pattern e relazioni, e i livelli convoluzionali, efficienti nell'elaborare dati visivi. Il risultato è un sistema che funziona più velocemente e usa meno memoria.

Secondo Apple, FastViTHD è fino a 3,4 volte più piccolo di alcuni codificatori di visione tradizionali, pur mantenendo un'elevata precisione. Invece di fare affidamento su tecniche di ottimizzazione del modello come il token pruning (rimozione di frammenti di immagine meno importanti per accelerare l'elaborazione), raggiunge l'efficienza attraverso un'architettura più semplice e snella.

Link to this sectionVarianti del modello FastVLM e pipeline di addestramento#

Apple ha rilasciato FastVLM in tre dimensioni diverse: 0,5B, 1,5B e 7B parametri (dove "B" sta per miliardi, riferendosi al numero di pesi addestrabili nel modello). Ogni versione è progettata per adattarsi a diversi tipi di dispositivi. I modelli più piccoli possono funzionare su telefoni e tablet, mentre il modello più grande da 7B è più adatto a desktop o attività più impegnative.

Questo offre agli sviluppatori la flessibilità di scegliere ciò che funziona meglio per le loro app. Possono creare qualcosa di veloce e leggero per il mobile o qualcosa di più complesso per sistemi più grandi, utilizzando sempre la stessa architettura di modello sottostante.

Apple ha addestrato le varianti del modello FastVLM utilizzando la pipeline LLaVA-1.5, un framework per allineare modelli di visione e linguaggio. Per la componente linguistica, hanno valutato FastVLM utilizzando modelli open source esistenti come Qwen e Vicuna, noti per generare testo naturale e coerente. Questa configurazione consente a FastVLM di elaborare sia immagini semplici che complesse e produrre risposte leggibili e pertinenti.

Link to this sectionIl significato di FastVLM: l'approccio efficiente di Apple all'IA#

Potresti chiederti perché l'elaborazione efficiente delle immagini di FastVLM sia importante. Tutto dipende da quanto fluidamente le app possono funzionare in tempo reale senza dipendere dal cloud. FastVLM può gestire immagini ad alta risoluzione, fino a 1152 per 1152 pixel, rimanendo veloce e leggero abbastanza da essere eseguito direttamente sul tuo dispositivo.

Ciò significa che le app possono descrivere ciò che vede la fotocamera, scansionare ricevute mentre vengono acquisite o rispondere ai cambiamenti sullo schermo, mantenendo tutto localmente. È particolarmente utile in ambiti come l'istruzione, l'accessibilità, la produttività e la fotografia.

Poiché FastViTHD è efficiente anche con immagini di grandi dimensioni, aiuta a mantenere i dispositivi reattivi e freschi. Funziona con tutte le dimensioni di modello, inclusa la più piccola, che gira su iPhone entry-level. Ciò significa che le stesse funzionalità IA possono funzionare su telefoni, tablet e Mac.

Link to this sectionApplicazioni di FastVLM#

FastVLM può alimentare una vasta gamma di applicazioni, grazie ai suoi vantaggi chiave come velocità, efficienza e privacy on-device. Ecco alcuni modi in cui può essere utilizzato:

  • Lettura di documenti: Può scansionare ricevute, moduli o carte d'identità ed estrarre solo le informazioni pertinenti. Può concentrarsi su aree specifiche in un'immagine, il che è utile per le app che necessitano di una estrazione del testo rapida e precisa.

  • Didascalie per immagini: Analizzando una foto, può generare una descrizione chiara di ciò che è presente nell'immagine. Questo supporta funzionalità in app di fotocamera, gallerie fotografiche o qualsiasi strumento che tragga vantaggio dalla comprensione visiva in tempo reale.

  • Supporto all'accessibilità: FastVLM può descrivere il contenuto sullo schermo per utenti non vedenti o ipovedenti, rendendo pulsanti, menu ed elementi di layout più facili da navigare e utilizzare.

  • Assistenti IA on-device: FastVLM può funzionare bene con assistenti IA che devono capire rapidamente cosa c'è sullo schermo. Poiché viene eseguito direttamente sul dispositivo e mantiene i dati privati, può aiutare in attività come la lettura di testo, l'identificazione di pulsanti o icone e la guida degli utenti in tempo reale senza dover inviare informazioni al cloud.

FastVLM può essere utilizzato per il riconoscimento del testo e la risposta visiva alle domande

Fig 4. FastVLM può essere utilizzato per il riconoscimento del testo e il visual question answering. (Fonte)

Link to this sectionPunti chiave#

FastVLM porta l'IA di visione e linguaggio on-device sui dispositivi Apple, combinando velocità, privacy ed efficienza. Con il suo design leggero e il rilascio open source, abilita la comprensione delle immagini in tempo reale su app mobile e desktop.

Ciò contribuisce a rendere l'IA più pratica e accessibile per l'uso quotidiano e fornisce agli sviluppatori una solida base per costruire applicazioni utili e incentrate sulla privacy. Guardando al futuro, è probabile che i modelli di visione e linguaggio svolgeranno un ruolo importante nel modo in cui interagiamo con la tecnologia, rendendo l'IA più reattiva, consapevole del contesto e utile nelle situazioni quotidiane.

Esplora il nostro repository GitHub per saperne di più sull'IA. Unisciti alla nostra community attiva e scopri le innovazioni in settori come l'IA nell'automotive e l'IA di visione nella produzione. Per iniziare oggi stesso con la visione artificiale, dai un'occhiata alle nostre opzioni di licenza.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning