En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Apple dévoile FastVLM à CVPR 2025. Ce modèle vision-langage open source est doté de l'encodeur FastViTHD, offrant un temps d'obtention du premier jeton jusqu'à 85 fois plus rapide.
Lors de la conférence CVPR 2025, Apple a présenté un nouveau modèle d'IA open source appelé FastVLM. Il est conçu pour comprendre à la fois les images et le langage, et il fonctionne sur les appareils Apple tels que les iPhones, iPads et Macs. Cela signifie qu'il peut fournir des résultats intelligents rapidement, sans envoyer vos données au cloud.
Ce qui rend FastVLM particulièrement intéressant, c'est sa rapidité et son efficacité. Apple a développé un nouvel encodeur de vision appelé FastViTHD, qui aide le modèle à interpréter des images de haute qualité tout en utilisant moins de mémoire et d'énergie. Tout le traitement se déroule localement sur l'appareil, ce qui se traduit par des temps de réponse plus rapides tout en préservant la confidentialité de l'utilisateur.
Dans cet article, nous allons explorer le fonctionnement de FastVLM, ce qui le distingue et pourquoi cette version d'Apple pourrait constituer une avancée significative pour les applications d'IA quotidiennes sur vos appareils.
Comprendre les modèles de langage de vision (VLMs)
Avant de nous plonger dans ce qui rend FastVLM spécial, expliquons ce que signifie le terme "VLM" dans son nom. Il s'agit d'un modèle vision-langage, conçu pour comprendre et connecter le contenu visuel avec le langage.
Les VLM associent la compréhension visuelle et le langage, ce qui leur permet d'effectuer des tâches telles que la description d'une photo, la réponse à des questions sur une capture d'écran ou l'extraction de texte d'un document. Les modèles de vision-langage fonctionnent généralement en deux parties : l'une traite l'image et la convertit en données, tandis que l'autre interprète ces données pour générer une réponse que vous pouvez lire ou entendre.
Vous avez peut-être déjà utilisé ce type d'innovation en matière d'IA sans même vous en rendre compte. Les applications qui scannent les reçus, lisent les cartes d'identité, génèrent des légendes d'images ou aident les personnes malvoyantes à interagir avec leurs écrans reposent souvent sur des modèles de vision-langage fonctionnant discrètement en arrière-plan.
Qu'est-ce que FastVLM ?
Apple a conçu FastVLM pour effectuer les mêmes tâches que les autres modèles vision-langage, mais avec une plus grande rapidité, une confidentialité renforcée et des performances optimisées sur ses propres appareils. Il peut comprendre le contenu d'une image et répondre avec du texte, mais contrairement à de nombreux modèles qui reposent sur des serveurs cloud, FastVLM peut fonctionner entièrement sur votre iPhone, iPad ou Mac.
Les VLM fonctionnent généralement mieux avec des images haute résolution. Par exemple, comme indiqué ci-dessous, FastVLM ne pouvait identifier correctement un panneau de signalisation comme « Sens interdit » que lorsqu'on lui fournissait une version haute résolution de l'image. Cependant, les entrées haute résolution ralentissent généralement les modèles. C'est là que FastViTHD fait la différence.
Fig. 1. Performance de FastVLM sur des images à basse et haute résolution. (Source)
Le nouvel encodeur de vision d'Apple, FastViTHD, aide FastVLM à traiter des images de haute qualité plus efficacement, en utilisant moins de mémoire et d'énergie. Plus précisément, FastViTHD est suffisamment léger pour fonctionner correctement, même sur des appareils plus petits.
De plus, FastVLM est disponible publiquement sur le dépôt GitHub de FastVLM, où les développeurs peuvent accéder au code source, apporter des modifications et l'utiliser dans leurs propres applications conformément aux conditions de la licence d'Apple.
Comparaison de FastVLM avec d'autres modèles VLM
Comparé à d'autres modèles de vision-langage, FastVLM est optimisé pour fonctionner sur des appareils courants tels que les smartphones et les ordinateurs portables. Lors des tests de performance, FastVLM a généré son premier mot ou sa première sortie jusqu'à 85 fois plus rapidement que des modèles comme LLaVA-OneVision-0.5B.
Fig. 2. Comparaison des performances de FastVLM avec d'autres modèles. (Source)
Voici un aperçu de certains des benchmarks standards sur lesquels FastVLM a été évalué :
DocVQA (Document Visual Question Answering) : Ce benchmark évalue la capacité du modèle à lire et à comprendre les informations textuelles contenues dans des documents, tels que des formulaires ou des pages numérisés.
TextVQA (Text-based Visual Question Answering) : Il évalue la capacité du modèle à interpréter les images contenant du texte intégré et à répondre avec précision aux questions connexes.
GQA (Graph Question Answering) : Cette tâche teste les compétences de raisonnement du modèle en lui demandant de comprendre les relations entre les objets et les scènes dans une image.
MMMU (Massive Multi-discipline Multimodal Understanding) : Il mesure les performances du modèle dans un large éventail de matières et de formats académiques, en combinant la compréhension visuelle et textuelle.
SeedBench (Évaluation standard des données améliorées pour le benchmarking) : Ce benchmark explore les capacités générales du modèle en matière de compréhension visuelle et de raisonnement dans de multiples domaines.
Dans l'ensemble de ces benchmarks, FastVLM a obtenu des résultats compétitifs tout en utilisant moins de ressources. Il apporte l'IA visuelle pratique aux appareils du quotidien tels que les téléphones, les tablettes et les ordinateurs portables.
Encodeur de vision efficace de FastVLM : FastViTHD
Ensuite, examinons de plus près FastViTHD, l'encodeur de vision qui joue un rôle crucial dans les performances de traitement d'image de FastVLM.
La plupart des modèles de langage de vision divisent une image en milliers de petits patchs appelés tokens. Plus il y a de tokens, plus le modèle a besoin de temps et de puissance pour comprendre l'image. Cela peut ralentir les choses, surtout sur les téléphones ou les ordinateurs portables.
Fig 3. Comment un encodeur de vision traite une image. (Source)
FastViTHD évite le ralentissement lié au traitement d'un trop grand nombre de jetons en en utilisant moins, tout en comprenant l'image dans son intégralité. Il combine deux approches : les transformateurs, qui sont efficaces pour modéliser les motifs et les relations, et les couches convolutionnelles, qui sont efficaces pour traiter les données visuelles. Le résultat est un système qui fonctionne plus rapidement et utilise moins de mémoire.
Selon Apple, FastViTHD est jusqu'à 3,4 fois plus petit que certains encodeurs de vision traditionnels, tout en conservant une grande précision. Au lieu de s'appuyer sur des techniques d'optimisation de modèle telles que l'élagage de jetons (suppression des correctifs d'image les moins importants pour accélérer le traitement), il atteint l'efficacité grâce à une architecture plus simple et plus rationalisée.
Variantes de modèle et pipeline de formation de FastVLM
Apple a lancé FastVLM en trois tailles différentes : 0,5B, 1,5B et 7B paramètres (où « B » signifie milliard, faisant référence au nombre de poids entraînables dans le modèle). Chaque version est conçue pour s'adapter à différents types d'appareils. Les modèles plus petits peuvent fonctionner sur les téléphones et les tablettes, tandis que le modèle 7B plus grand est mieux adapté aux ordinateurs de bureau ou aux tâches plus exigeantes.
Cela donne aux développeurs la flexibilité de choisir ce qui fonctionne le mieux pour leurs applications. Ils peuvent construire quelque chose de rapide et léger pour le mobile ou quelque chose de plus complexe pour les systèmes plus importants, tout en utilisant la même architecture de modèle sous-jacente.
Apple a entraîné les variantes du modèle FastVLM en utilisant le pipeline LLaVA-1.5, un cadre pour l'alignement de la vision et des modèles de langage. Pour la composante linguistique, ils ont évalué FastVLM en utilisant des modèles open source existants comme Qwen et Vicuna, qui sont connus pour générer un texte naturel et cohérent. Cette configuration permet à FastVLM de traiter des images simples et complexes et de produire des réponses lisibles et pertinentes.
L'importance de FastVLM : l'approche efficace d'Apple en matière d'IA
Vous vous demandez peut-être, pourquoi le traitement d'image efficace de FastVLM est-il important ? Cela se résume à la fluidité avec laquelle les applications peuvent fonctionner en temps réel sans dépendre du cloud. FastVLM peut gérer des images haute résolution, jusqu'à 1152 par 1152 pixels, tout en restant suffisamment rapide et léger pour fonctionner directement sur votre appareil.
Cela signifie que les applications peuvent décrire ce que la caméra voit, numériser les reçus au fur et à mesure qu'ils sont capturés ou répondre aux changements à l'écran, tout en gardant tout en local. C'est particulièrement utile pour des domaines tels que l'éducation, l'accessibilité, la productivité et la photographie.
Comme FastViTHD est efficace même avec de grandes images, il contribue à maintenir les appareils réactifs et à basse température. Il fonctionne avec toutes les tailles de modèles, y compris le plus petit, qui fonctionne sur les iPhones d'entrée de gamme. Cela signifie que les mêmes fonctionnalités d'IA peuvent fonctionner sur les téléphones, les tablettes et les Mac.
Applications de FastVLM
FastVLM peut alimenter un large éventail d'applications, grâce à ses principaux avantages tels que la vitesse, l'efficacité et la confidentialité sur l'appareil. Voici quelques exemples de son utilisation :
Lecture de documents : Il peut scanner des reçus, des formulaires ou des cartes d'identité et extraire uniquement les informations pertinentes. Il peut se concentrer sur des zones spécifiques d'une image, ce qui est utile pour les applications qui ont besoin d'extraction de texte rapide et précise.
Légendes d'images : En analysant une photo, il peut générer une description claire de ce qui se trouve dans l'image. Cela prend en charge les fonctionnalités des applications d'appareil photo, des galeries de photos ou de tout outil qui bénéficie d'une compréhension visuelle en temps réel.
Prise en charge de l'accessibilité : FastVLM peut décrire le contenu à l'écran pour les utilisateurs aveugles ou malvoyants, ce qui facilite la navigation et l'utilisation des boutons, des menus et des éléments de mise en page.
Assistants IA sur l'appareil : FastVLM peut bien fonctionner avec les assistants IA qui ont besoin de comprendre rapidement ce qui se trouve à l'écran. Puisqu'il fonctionne directement sur l'appareil et préserve la confidentialité des données, il peut aider à des tâches telles que la lecture de texte, l'identification de boutons ou d'icônes et le guidage des utilisateurs en temps réel sans avoir besoin d'envoyer des informations au cloud.
Fig. 4. FastVLM peut être utilisé pour la reconnaissance de texte et la réponse visuelle aux questions. (Source)
Principaux points à retenir
FastVLM apporte l'IA vision-langage sur les appareils Apple, combinant vitesse, confidentialité et efficacité. Grâce à sa conception légère et à sa publication en open source, il permet une compréhension de l'image en temps réel sur les applications mobiles et de bureau.
Cela contribue à rendre l'IA plus pratique et accessible pour une utilisation quotidienne, et donne aux développeurs une base solide pour la création d'applications utiles et axées sur la confidentialité. Pour l'avenir, il est probable que les modèles de vision-langage joueront un rôle important dans la façon dont nous interagissons avec la technologie, rendant l'IA plus réactive, consciente du contexte et utile dans les situations quotidiennes.