Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

FastVLM : Apple présente son nouveau modèle vision-langage rapide

Apple dévoile FastVLM à la CVPR 2025. Ce modèle vision-langage open-source intègre l'encodeur FastViTHD, offrant un temps jusqu'à 85 fois plus rapide pour obtenir le premier jeton.

ABAbirami Vina
4 min read
Le modèle vision-langage rapide FastVLM d'Apple

Lors de la conférence CVPR 2025, Apple a présenté un nouveau modèle d'IA open source appelé FastVLM. Il est conçu pour comprendre à la fois les images et le langage, et il fonctionne sur les appareils Apple tels que les iPhones, les iPads et les Macs. Cela signifie qu'il peut fournir des résultats intelligents rapidement, sans envoyer tes données vers le cloud.

Ce qui rend FastVLM particulièrement intéressant, c'est sa rapidité et son efficacité. Apple a développé un nouvel encodeur de vision appelé FastViTHD, qui aide le modèle à interpréter des images de haute qualité tout en consommant moins de mémoire et d'énergie. Tout le traitement se fait localement sur l'appareil, ce qui permet d'obtenir des temps de réponse plus rapides tout en préservant la confidentialité des utilisateurs.

Dans cet article, nous explorerons le fonctionnement de FastVLM, ce qui le distingue, et pourquoi cette version d'Apple pourrait constituer une avancée significative pour les applications d'IA quotidiennes sur tes appareils.

Link to this sectionComprendre les modèles de vision et de langage (VLM)#

Avant de plonger dans ce qui rend FastVLM spécial, expliquons ce que signifie le terme « VLM » dans son nom. Il fait référence à un modèle de vision et de langage, conçu pour comprendre et connecter le contenu visuel avec le langage.

Les VLM combinent la compréhension visuelle et le langage, leur permettant d'effectuer des tâches comme décrire une photo, répondre à des questions sur une capture d'écran, ou extraire du texte d'un document. Les modèles de vision et de langage fonctionnent généralement en deux parties : l'une traite l'image et la convertit en données, tandis que l'autre interprète ces données pour générer une réponse que tu peux lire ou entendre.

Tu as peut-être déjà utilisé ce type d'innovation en IA sans même t'en rendre compte. Les applications qui scannent des reçus, lisent des cartes d'identité, génèrent des légendes d'images ou aident les personnes malvoyantes à interagir avec leurs écrans s'appuient souvent sur des modèles de vision et de langage fonctionnant discrètement en arrière-plan.

Link to this sectionQu'est-ce que FastVLM ?#

Apple a construit FastVLM pour effectuer les mêmes tâches que d'autres modèles de vision et de langage, mais avec une vitesse supérieure, une meilleure confidentialité et des performances optimisées sur ses propres appareils. Il peut comprendre le contenu d'une image et répondre avec du texte, mais contrairement à de nombreux modèles qui dépendent de serveurs cloud, FastVLM peut fonctionner entièrement sur ton iPhone, iPad ou Mac.

Les VLM fonctionnent généralement mieux avec des images haute résolution. Par exemple, comme illustré ci-dessous, FastVLM n'a pu identifier correctement un panneau de signalisation comme « Sens interdit » qu'en recevant une version haute résolution de l'image. Cependant, les entrées haute résolution ralentissent habituellement les modèles. C'est là que FastViTHD fait la différence.

Performance de FastVLM sur des images à basse vs haute résolution

Fig 1. Performances de FastVLM sur des images basse vs haute résolution. (Source)

Le nouvel encodeur de vision d'Apple, FastViTHD, aide FastVLM à traiter des images de haute qualité plus efficacement, en utilisant moins de mémoire et d'énergie. Plus précisément, FastViTHD est suffisamment léger pour fonctionner sans problème même sur des appareils plus petits.

De plus, FastVLM est disponible publiquement sur le dépôt GitHub de FastVLM, où les développeurs peuvent accéder au code source, apporter des modifications et l'utiliser dans leurs propres applications conformément aux conditions de licence d'Apple.

Link to this sectionComparer FastVLM avec d'autres modèles VLM#

Par rapport à d'autres modèles de vision et de langage, FastVLM est optimisé pour fonctionner sur des appareils du quotidien tels que les smartphones et les ordinateurs portables. Lors de tests de performance, FastVLM a généré son premier mot ou résultat jusqu'à 85 fois plus rapidement que des modèles comme LLaVA-OneVision-0.5B.

Comparaison des performances de FastVLM avec d'autres modèles

Fig 2. Comparaison des performances de FastVLM avec d'autres modèles. (Source)

Voici un aperçu de certains des benchmarks standard sur lesquels FastVLM a été évalué :

  • DocVQA (Document Visual Question Answering) : Ce benchmark évalue la capacité du modèle à lire et à comprendre les informations textuelles dans les documents, tels que les formulaires scannés ou les pages.
  • TextVQA (Text-based Visual Question Answering) : Il évalue la capacité du modèle à interpréter des images contenant du texte intégré et à répondre précisément à des questions connexes.
  • GQA (Graph Question Answering) : Cette tâche teste les capacités de raisonnement du modèle en exigeant qu'il comprenne les relations entre les objets et les scènes au sein d'une image.
  • MMMU (Massive Multi-discipline Multimodal Understanding) : Il mesure les performances du modèle dans un large éventail de sujets et de formats académiques, combinant compréhension visuelle et textuelle.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking) : Ce benchmark explore les capacités générales du modèle en matière de compréhension et de raisonnement visuels dans plusieurs domaines.

À travers ces benchmarks, FastVLM a obtenu des résultats compétitifs tout en utilisant moins de ressources. Il apporte une IA visuelle pratique aux appareils du quotidien tels que les téléphones, les tablettes et les ordinateurs portables.

Link to this sectionL'encodeur de vision efficace de FastVLM : FastViTHD#

Ensuite, examinons de plus près FastViTHD, l'encodeur de vision qui joue un rôle crucial dans les performances de traitement d'image de FastVLM.

La plupart des modèles de vision et de langage divisent une image en milliers de petites zones appelées jetons (tokens). Plus il y a de jetons, plus le modèle a besoin de temps et d'énergie pour comprendre l'image. Cela peut ralentir les choses, surtout sur les téléphones ou les ordinateurs portables.

Comment un encodeur de vision traite une image

Fig 3. Comment un encodeur de vision traite une image. (Source)

FastViTHD évite le ralentissement lié au traitement d'un trop grand nombre de jetons en en utilisant moins, tout en comprenant l'image complète. Il combine deux approches : les transformers, qui sont efficaces pour modéliser les modèles et les relations, et les couches de convolution, qui sont efficaces pour traiter les données visuelles. Le résultat est un système qui fonctionne plus rapidement et utilise moins de mémoire.

Selon Apple, FastViTHD est jusqu'à 3,4 fois plus petit que certains encodeurs de vision traditionnels, tout en conservant une grande précision. Au lieu de s'appuyer sur des techniques d'optimisation de modèle comme l'élagage de jetons (suppression des zones d'image moins importantes pour accélérer le traitement), il atteint son efficacité grâce à une architecture plus simple et plus rationalisée.

Link to this sectionVariantes de modèles et pipeline d'entraînement de FastVLM#

Apple a publié FastVLM en trois tailles différentes : 0.5B, 1.5B et 7B paramètres (où « B » signifie milliard, faisant référence au nombre de poids entraînables dans le modèle). Chaque version est conçue pour s'adapter à différents types d'appareils. Les modèles plus petits peuvent fonctionner sur les téléphones et les tablettes, tandis que le modèle 7B plus grand est mieux adapté aux ordinateurs de bureau ou aux tâches plus exigeantes.

Cela donne aux développeurs la flexibilité de choisir ce qui fonctionne le mieux pour leurs applications. Ils peuvent construire quelque chose de rapide et léger pour le mobile ou quelque chose de plus complexe pour des systèmes plus grands, tout en utilisant la même architecture de modèle sous-jacente.

Apple a entraîné les variantes du modèle FastVLM en utilisant le pipeline LLaVA‑1.5, un cadre pour aligner la vision et les modèles de langage. Pour la composante linguistique, ils ont évalué FastVLM en utilisant des modèles open source existants comme Qwen et Vicuna, connus pour générer du texte naturel et cohérent. Cette configuration permet à FastVLM de traiter des images simples et complexes et de produire des réponses lisibles et pertinentes.

Link to this sectionL'importance de FastVLM : l'approche efficace d'Apple en matière d'IA#

Tu te demandes peut-être pourquoi le traitement d'image efficace de FastVLM est important ? Tout dépend de la fluidité avec laquelle les applications peuvent fonctionner en temps réel sans dépendre du cloud. FastVLM peut gérer des images haute résolution, jusqu'à 1152 par 1152 pixels, tout en restant suffisamment rapide et léger pour fonctionner directement sur ton appareil.

Cela signifie que les applications peuvent décrire ce que la caméra voit, scanner des reçus au moment de leur capture, ou répondre aux changements à l'écran, tout en gardant tout localement. C'est particulièrement utile pour des domaines comme l'éducation, l'accessibilité, la productivité et la photographie.

Puisque FastViTHD est efficace même avec de grandes images, il aide à garder les appareils réactifs et à maintenir des températures basses. Il fonctionne avec toutes les tailles de modèle, y compris la plus petite, qui fonctionne sur les iPhones d'entrée de gamme. Cela signifie que les mêmes fonctionnalités d'IA peuvent fonctionner sur les téléphones, les tablettes et les Macs.

Link to this sectionApplications de FastVLM#

FastVLM peut alimenter une large gamme d'applications, grâce à ses avantages clés comme la vitesse, l'efficacité et la confidentialité sur l'appareil. Voici quelques façons dont il peut être utilisé :

  • Lecture de documents : Il peut scanner des reçus, des formulaires ou des cartes d'identité et extraire uniquement les informations pertinentes. Il peut se concentrer sur des zones spécifiques dans une image, ce qui est utile pour les applications nécessitant une extraction de texte rapide et précise.

  • Légendes d'images : En analysant une photo, il peut générer une description claire de ce qui se trouve dans l'image. Cela prend en charge des fonctionnalités dans les applications d'appareil photo, les galeries de photos ou tout outil bénéficiant d'une compréhension visuelle en temps réel.

  • Support d'accessibilité : FastVLM peut décrire le contenu à l'écran pour les utilisateurs aveugles ou malvoyants, rendant les boutons, les menus et les éléments de mise en page plus faciles à naviguer et à utiliser.

  • Assistants IA sur l'appareil : FastVLM peut bien fonctionner avec des assistants IA qui ont besoin de comprendre rapidement ce qui est à l'écran. Comme il fonctionne directement sur l'appareil et garde les données privées, il peut aider à des tâches comme lire du texte, identifier des boutons ou des icônes, et guider les utilisateurs en temps réel sans avoir besoin d'envoyer des informations vers le cloud.

FastVLM peut être utilisé pour la reconnaissance de texte et les questions-réponses visuelles

Fig 4. FastVLM peut être utilisé pour la reconnaissance de texte et la réponse aux questions visuelles. (Source)

Link to this sectionPoints clés#

FastVLM apporte l'IA de vision et de langage sur les appareils Apple, combinant vitesse, confidentialité et efficacité. Avec son design léger et sa version open source, il permet une compréhension d'image en temps réel sur les applications mobiles et de bureau.

Cela aide à rendre l'IA plus pratique et accessible pour une utilisation quotidienne, et donne aux développeurs une base solide pour créer des applications utiles axées sur la confidentialité. À l'avenir, il est probable que les modèles de vision et de langage joueront un rôle important dans la façon dont nous interagissons avec la technologie, rendant l'IA plus réactive, contextuelle et utile dans les situations quotidiennes.

Explore notre dépôt GitHub pour en savoir plus sur l'IA. Rejoins notre communauté active et découvre des innovations dans des secteurs comme l'IA dans l'automobile et l'IA de vision dans la fabrication. Pour commencer avec la vision par ordinateur dès aujourd'hui, consulte nos options de licence.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique