FastVLM : Apple présente son nouveau modèle de langage de vision rapide

Abirami Vina

4 min lire

8 août 2025

Apple dévoile FastVLM à l'occasion de la conférence CVPR 2025. Ce modèle de langage de vision open-source est doté de l'encodeur FastViTHD, qui permet d'accélérer de 85 fois le temps d'obtention du premier jeton.

Lors de la conférence CVPR 2025, Apple a présenté un nouveau modèle d'IA open-source appelé FastVLM. Ce modèle est conçu pour comprendre à la fois les images et le langage, et il fonctionne sur les appareils Apple tels que les iPhones, les iPads et les Macs. Cela signifie qu'il peut fournir rapidement des résultats intelligents, sans envoyer vos données dans le nuage.

Ce qui rend FastVLM particulièrement intéressant, c'est sa rapidité et son efficacité. Apple a développé un nouvel encodeur de vision appelé FastViTHD, qui aide le modèle à interpréter des images de haute qualité tout en utilisant moins de mémoire et d'énergie. Tout le traitement s'effectue localement sur l'appareil, ce qui permet d'accélérer les temps de réponse tout en préservant la vie privée de l'utilisateur.

Dans cet article, nous verrons comment fonctionne FastVLM, ce qui le distingue et pourquoi cette version d'Apple pourrait constituer une avancée significative pour les applications quotidiennes d'IA sur vos appareils.

Comprendre les modèles de langage de vision (VLM)

Avant de nous pencher sur ce qui fait la spécificité de FastVLM, voyons ce que signifie le mot "VLM" dans son nom. Il s'agit d'un modèle vision-langage, conçu pour comprendre et relier le contenu visuel au langage.

Les modèles vision-langage associent la compréhension visuelle et le langage, ce qui leur permet d'effectuer des tâches telles que décrire une photo, répondre à des questions sur une capture d'écran ou extraire du texte d'un document. Les modèles vision-langage fonctionnent généralement en deux parties : l'une traite l'image et la convertit en données, tandis que l'autre interprète ces données pour générer une réponse que vous pouvez lire ou entendre.

Vous avez peut-être déjà utilisé ce type d'innovation en matière d'IA sans même vous en rendre compte. Les applications qui scannent les reçus, lisent les cartes d'identité, génèrent des légendes d'images ou aident les personnes malvoyantes à interagir avec leurs écrans s'appuient souvent sur des modèles de langage visuel fonctionnant discrètement en arrière-plan.

Qu'est-ce que FastVLM ?

Apple a conçu FastVLM pour effectuer les mêmes tâches que d'autres modèles de langage visuel, mais avec une plus grande rapidité, une meilleure confidentialité et des performances optimisées sur ses propres appareils. Il peut comprendre le contenu d'une image et y répondre par du texte, mais contrairement à de nombreux modèles qui reposent sur des serveurs en nuage, FastVLM peut fonctionner entièrement sur votre iPhone, iPad ou Mac.

Les VLM sont généralement plus performants avec des images à haute résolution. Par exemple, comme le montre l'illustration ci-dessous, FastVLM n'a pu identifier correctement un panneau de rue comme étant "Ne pas entrer" que lorsqu'il disposait d'une version haute résolution de l'image. Cependant, les entrées en haute résolution ralentissent généralement les modèles. C'est là que FastViTHD fait la différence.

Fig. 1. Performances de FastVLM sur des images à basse et à haute résolution.(Source)

Le nouveau codeur de vision d'Apple, FastViTHD, permet à FastVLM de traiter des images de haute qualité plus efficacement, en utilisant moins de mémoire et d'énergie. En particulier, FastViTHD est suffisamment léger pour fonctionner sans problème, même sur des appareils de petite taille.

FastVLM est également accessible au public sur le dépôt FastVLM GitHub, où les développeurs peuvent accéder au code source, apporter des modifications et l'utiliser dans leurs propres applications conformément aux conditions de licence d'Apple.

Comparaison de FastVLM avec d'autres modèles VLM

Par rapport à d'autres modèles de langage visuel, FastVLM est optimisé pour fonctionner sur des appareils courants tels que les smartphones et les ordinateurs portables. Lors des tests de performance, FastVLM a généré son premier mot ou sa première sortie jusqu'à 85 fois plus vite que des modèles comme LLaVA-OneVision-0.5B. 

Fig. 2. Comparaison des performances de FastVLM avec d'autres modèles.(Source)

Voici un aperçu de quelques-uns des critères de référence standard sur lesquels FastVLM a été évalué :

  • DocVQA (Document Visual Question Answering) : Ce critère évalue la capacité du modèle à lire et à comprendre les informations textuelles contenues dans des documents, tels que des formulaires ou des pages scannés.
  • TextVQA (Text-based Visual Question Answering) : Il évalue la capacité du modèle à interpréter des images contenant du texte et à répondre avec précision aux questions qui s'y rapportent.
  • GQA (Graph Question Answering) : Cette tâche teste les capacités de raisonnement du modèle en lui demandant de comprendre les relations entre les objets et les scènes d'une image.
  • MMMU (Massive Multi-discipline Multimodal Understanding) : Il mesure les performances du modèle dans un large éventail de sujets et de formats académiques, en combinant la compréhension visuelle et textuelle.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking) : Ce benchmark explore les capacités générales du modèle en matière de compréhension visuelle et de raisonnement dans plusieurs domaines.

Sur l'ensemble de ces benchmarks, FastVLM a obtenu des résultats compétitifs tout en utilisant moins de ressources. Il met l'IA visuelle pratique à la portée des appareils de tous les jours tels que les téléphones, les tablettes et les ordinateurs portables.

Encodeur de vision efficace FastVLM : FastViTHD

Ensuite, examinons de plus près FastViTHD, l'encodeur de vision qui joue un rôle crucial dans les performances de traitement d'image de FastVLM.

La plupart des modèles de langage visuel divisent une image en milliers de petites parcelles appelées "tokens". Plus il y a de jetons, plus le modèle a besoin de temps et de puissance pour comprendre l'image. Cela peut ralentir le processus, en particulier sur les téléphones et les ordinateurs portables.

Fig. 3. Comment un codeur de vision traite une image.(Source)

FastViTHD évite le ralentissement lié au traitement d'un trop grand nombre de jetons en en utilisant moins, tout en continuant à comprendre l'image dans son intégralité. Il combine deux approches : les transformateurs, qui permettent de modéliser des modèles et des relations, et les couches convolutives, qui traitent efficacement les données visuelles. Le résultat est un système qui fonctionne plus rapidement et utilise moins de mémoire.

Selon Apple, FastViTHD est jusqu'à 3,4 fois plus petit que certains encodeurs de vision traditionnels, tout en conservant une grande précision. Au lieu de s'appuyer sur des techniques d'optimisation de modèle telles que l'élagage des jetons (suppression des parcelles d'image les moins importantes pour accélérer le traitement), il atteint l'efficacité grâce à une architecture plus simple et plus rationalisée.

Variantes du modèle FastVLM et pipeline de formation

Apple a publié FastVLM en trois tailles différentes : 0,5B, 1,5B et 7B paramètres (où "B" signifie milliard, en référence au nombre de poids entraînables dans le modèle). Chaque version est conçue pour s'adapter à différents types d'appareils. Les modèles les plus petits peuvent fonctionner sur des téléphones et des tablettes, tandis que le modèle le plus grand, 7B, est mieux adapté aux ordinateurs de bureau ou à des tâches plus exigeantes.

Les développeurs ont ainsi la possibilité de choisir ce qui convient le mieux à leurs applications. Ils peuvent créer quelque chose de rapide et de léger pour les mobiles ou quelque chose de plus complexe pour les grands systèmes, tout en utilisant la même architecture de modèle sous-jacente.

Apple a entraîné les variantes du modèle FastVLM à l'aide du pipeline LLaVA-1.5, un cadre permettant d'aligner les modèles de vision et de langage. Pour la composante linguistique, ils ont évalué FastVLM à l'aide de modèles open-source existants tels que Qwen et Vicuna, qui sont connus pour générer des textes naturels et cohérents. Cette configuration permet à FastVLM de traiter des images simples et complexes et de produire des réponses lisibles et pertinentes.

L'importance de FastVLM : l'approche efficace d'Apple en matière d'IA

Vous vous demandez peut-être pourquoi l'efficacité du traitement d'images de FastVLM est importante ? Cela se résume à la fluidité avec laquelle les applications peuvent fonctionner en temps réel sans dépendre du cloud. FastVLM peut traiter des images haute résolution, jusqu'à 1152 par 1152 pixels, tout en restant suffisamment rapide et léger pour fonctionner directement sur votre appareil.

Cela signifie que les applications peuvent décrire ce que l'appareil photo voit, scanner les reçus au fur et à mesure qu'ils sont capturés ou répondre aux changements sur l'écran, tout en conservant un caractère local. Cette technologie est particulièrement utile dans des domaines tels que l'éducation, l'accessibilité, la productivité et la photographie.

Comme FastViTHD est efficace même lorsqu'il s'agit d'images de grande taille, il contribue à la réactivité et à la fraîcheur des appareils. Il fonctionne avec toutes les tailles de modèles, y compris le plus petit, qui fonctionne sur les iPhones d'entrée de gamme. Cela signifie que les mêmes fonctions d'intelligence artificielle peuvent fonctionner sur les téléphones, les tablettes et les Mac.

Applications de FastVLM

FastVLM peut alimenter un large éventail d'applications, grâce à ses avantages clés tels que la vitesse, l'efficacité et la confidentialité sur l'appareil. Voici quelques exemples d'utilisation :

  • Lecture de documents : Il peut numériser des reçus, des formulaires ou des cartes d'identité et n'extraire que les informations pertinentes. Il peut se concentrer sur des zones spécifiques d'une image, ce qui est utile pour les applications qui nécessitent une extraction de texte rapide et précise.
  • Légendes d'images : L'analyse d'une photo permet de générer une description claire de son contenu. Cela permet de prendre en charge des fonctions dans les applications d'appareil photo, les galeries de photos ou tout autre outil qui bénéficie d'une compréhension visuelle en temps réel.
  • Soutien à l'accessibilité : FastVLM peut décrire le contenu à l'écran pour les utilisateurs aveugles ou malvoyants, en facilitant la navigation et l'utilisation des boutons, des menus et des éléments de mise en page.

Assistants d'intelligence artificielle sur l'appareil : FastVLM peut bien fonctionner avec les assistants d'IA qui ont besoin de comprendre rapidement ce qui est à l'écran. Comme il fonctionne directement sur l'appareil et que les données sont confidentielles, il peut aider à lire du texte, à identifier des boutons ou des icônes et à guider les utilisateurs en temps réel sans avoir besoin d'envoyer des informations dans le nuage.

Fig. 4. FastVLM peut être utilisé pour la reconnaissance de texte et la réponse à des questions visuelles.(Source)

Principaux enseignements

FastVLM apporte l'IA en langage de vision sur les appareils Apple, en combinant vitesse, confidentialité et efficacité. Grâce à sa conception légère et à sa version open-source, il permet de comprendre les images en temps réel dans les applications mobiles et de bureau. 

Cela contribue à rendre l'IA plus pratique et plus accessible au quotidien, et donne aux développeurs une base solide pour créer des applications utiles et respectueuses de la vie privée. À l'avenir, il est probable que les modèles vision-langage joueront un rôle important dans la manière dont nous interagissons avec la technologie, rendant l'IA plus réactive, plus consciente du contexte et plus utile dans les situations de tous les jours.

Explorez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez des innovations dans des secteurs tels que l 'IA dans l 'industrie automobile et l'IA de vision dans la fabrication. Pour vous lancer dans la vision par ordinateur dès aujourd'hui, consultez nos options de licence.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers