Glossaire

Modèle linguistique de vision (VLM)

Découvrez les modèles linguistiques de vision (VLM) avec Ultralytics. Apprenez comment ils relient la vision par ordinateur et les LLM pour la VQA et la détection à vocabulaire ouvert à l'aide Ultralytics .

Un modèle linguistique visuel (VLM) est un type d'intelligence artificielle capable de traiter et d'interpréter simultanément à la fois des informations visuelles (images ou vidéos) et des informations textuelles. Contrairement aux modèles traditionnels de vision par ordinateur qui se concentrent uniquement sur les données pixel, ou aux grands modèles linguistiques (LLM) qui ne comprennent que le texte, les VLM comblent le fossé entre ces deux modalités. En s'entraînant sur des ensembles de données massifs contenant des paires image-texte, ces modèles apprennent à associer des caractéristiques visuelles à des concepts linguistiques, ce qui leur permet de décrire des images, de répondre à des questions sur des scènes visuelles et même d'exécuter des commandes en fonction de ce qu'ils « voient ».

Comment fonctionnent les modèles linguistiques visuels

À la base, les VLM se composent généralement de deux éléments principaux : un encodeur de vision et un encodeur de texte. L'encodeur de vision traite les images pour extraire des cartes de caractéristiques et des représentations visuelles , tandis que l'encodeur de texte traite les données linguistiques. Ces flux de données distincts sont ensuite fusionnés à l'aide de mécanismes tels que l'attention croisée afin d'aligner les informations visuelles et textuelles dans un espace d'intégration commun.

Les progrès récents réalisés en 2024 et 2025 ont conduit à des architectures plus unifiées, dans lesquelles une seule structure de transformateur gère les deux modalités. Par exemple, des modèles tels que Google 2 démontrent à quel point l'intégration efficace de ces flux peut améliorer les performances dans le cadre de tâches de raisonnement complexes. Cet alignement permet au modèle de comprendre le contexte, par exemple en reconnaissant que le mot « pomme » fait référence à un fruit dans l'image d'une épicerie, mais à une entreprise technologique dans un logo.

Applications concrètes

La capacité de comprendre le monde à la fois par la vue et par le langage ouvre la voie à diverses applications dans divers secteurs :

Réponses à des questions visuelles (VQA) : les VLM sont largement utilisés dans le diagnostic médical pour aider les radiologues. Un médecin peut demander au système : « Y a-t-il une fracture sur cette radiographie ? » Le modèle analyse alors l'image médicale pour fournir une évaluation préliminaire, ce qui réduit les erreurs de diagnostic.
Recherche intelligente dans le commerce électronique : dans les environnements de vente au détail, les VLM permettent aux utilisateurs de rechercher des produits à l'aide de descriptions en langage naturel associées à des images. Un acheteur peut télécharger une photo de la tenue d'une célébrité et demander : « Trouvez-moi une robe avec ce motif, mais en bleu ». Le système utilise alors la recherche sémantique pour trouver des correspondances précises.
Sous-titrage automatisé et accessibilité : les VLM génèrent automatiquement un texte alternatif descriptif pour les images sur le Web, rendant ainsi le contenu numérique plus accessible aux utilisateurs malvoyants qui utilisent des lecteurs d'écran.

Différencier les VLM des concepts connexes

Il est utile de distinguer les VLM des autres catégories d'IA afin de comprendre leur rôle spécifique :

VLM vs LLM : un grand modèle linguistique (comme les versions texte uniquement de GPT-4 ) ne traite que les données textuelles. S'il peut générer des histoires ou du code créatifs, il ne peut pas « voir » une image. Un VLM donne en quelque sorte des yeux à un LLM.
VLM vs détection d'objets : les modèles traditionnels de détection d'objets, tels que les premières versions YOLO , identifient l'emplacement des objets et la classe à laquelle ils appartiennent (par exemple, « Voiture : 99 % »). Un VLM va plus loin en comprenant les relations et les attributs, tels que « une voiture de sport rouge garée à côté d'une borne d'incendie ».
VLM vs IA multimodale : L'IA multimodale est un terme générique plus large. Si tous les VLM sont multimodaux (combinant la vision et le langage), tous les modèles multimodaux ne sont pas des VLM ; certains peuvent combiner l'audio et le texte (comme la conversion de la parole en texte) ou la vidéo et les données des capteurs sans composante linguistique.

Détection à vocabulaire ouvert avec YOLO

Les VLM modernes permettent la détection à « vocabulaire ouvert », où vous pouvez detect à l'aide d'invites de texte libre plutôt que de classes prédéfinies. Il s'agit d'une fonctionnalité clé de modèles tels que Ultralytics YOLO, qui permet des définitions de classes dynamiques sans réentraînement.

L'exemple suivant montre comment utiliser la fonction ultralytics paquet permettant de detect des objets detect décrits par du texte :

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Défis et orientations futures

Bien que puissants, les modèles linguistiques visuels sont confrontés à des défis importants. L'un des principaux problèmes est celui de l' hallucination, où le modèle décrit avec assurance des objets ou du texte dans une image qui n'existent tout simplement pas. Les chercheurs travaillent activement sur des techniques telles que l' apprentissage par renforcement à partir du retour d'information humain (RLHF) afin d'améliorer l'ancrage et la précision.

Un autre défi réside dans le coût informatique. La formation de ces modèles massifs nécessite d'importantes GPU . Cependant, la sortie d' architectures efficaces telles Ultralytics contribue à apporter des capacités de vision avancées aux appareils de pointe. À mesure que nous progressons, nous nous attendons à voir les VLM jouer un rôle crucial dans les agents robotiques, permettant aux robots de naviguer et de manipuler des objets sur la base d'instructions verbales complexes.

Pour ceux qui s'intéressent aux fondements théoriques, l'article original CLIP publié par OpenAI fournit d'excellentes informations sur le pré-entraînement contrastif langage-image. De plus, il est essentiel de se tenir au courant des articles publiés lors de la conférence CVPR pour suivre l'évolution rapide de ces architectures. Pour tester l'entraînement de vos propres modèles de vision, vous pouvez utiliser Ultralytics qui permet une gestion rationalisée des ensembles de données et le déploiement des modèles .

Modèle linguistique de vision (VLM)

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionnent les modèles linguistiques visuels

Applications concrètes

Différencier les VLM des concepts connexes

Détection à vocabulaire ouvert avec YOLO

Défis et orientations futures

En savoir plus dans cette catégorie

Comment améliorer mAP du modèle mAP les petits objets : guide rapide

Redéfinir la surveillance de la biodiversité grâce à la vision par ordinateur

Les 5 meilleurs conseils pour déployer efficacement YOLO26 sur le périphérique et dans le cloud

Rejoindre la communauté Ultralytics