Découvrez les modèles linguistiques de vision (VLM) avec Ultralytics. Apprenez comment ils relient la vision par ordinateur et les LLM pour la VQA et la détection à vocabulaire ouvert à l'aide Ultralytics .
Un modèle linguistique visuel (VLM) est un type d'intelligence artificielle capable de traiter et d'interpréter simultanément à la fois des informations visuelles (images ou vidéos) et des informations textuelles. Contrairement aux modèles traditionnels de vision par ordinateur qui se concentrent uniquement sur les données pixel, ou aux grands modèles linguistiques (LLM) qui ne comprennent que le texte, les VLM comblent le fossé entre ces deux modalités. En s'entraînant sur des ensembles de données massifs contenant des paires image-texte, ces modèles apprennent à associer des caractéristiques visuelles à des concepts linguistiques, ce qui leur permet de décrire des images, de répondre à des questions sur des scènes visuelles et même d'exécuter des commandes en fonction de ce qu'ils « voient ».
À la base, les VLM se composent généralement de deux éléments principaux : un encodeur de vision et un encodeur de texte. L'encodeur de vision traite les images pour extraire des cartes de caractéristiques et des représentations visuelles , tandis que l'encodeur de texte traite les données linguistiques. Ces flux de données distincts sont ensuite fusionnés à l'aide de mécanismes tels que l'attention croisée afin d'aligner les informations visuelles et textuelles dans un espace d'intégration commun.
Les progrès récents réalisés en 2024 et 2025 ont conduit à des architectures plus unifiées, dans lesquelles une seule structure de transformateur gère les deux modalités. Par exemple, des modèles tels que Google 2 démontrent à quel point l'intégration efficace de ces flux peut améliorer les performances dans le cadre de tâches de raisonnement complexes. Cet alignement permet au modèle de comprendre le contexte, par exemple en reconnaissant que le mot « pomme » fait référence à un fruit dans l'image d'une épicerie, mais à une entreprise technologique dans un logo.
La capacité de comprendre le monde à la fois par la vue et par le langage ouvre la voie à diverses applications dans divers secteurs :
Il est utile de distinguer les VLM des autres catégories d'IA afin de comprendre leur rôle spécifique :
Les VLM modernes permettent la détection à « vocabulaire ouvert », où vous pouvez detect à l'aide d'invites de texte libre plutôt que de classes prédéfinies. Il s'agit d'une fonctionnalité clé de modèles tels que Ultralytics YOLO, qui permet des définitions de classes dynamiques sans réentraînement.
L'exemple suivant montre comment utiliser la fonction ultralytics paquet permettant de detect des objets detect
décrits par du texte :
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Bien que puissants, les modèles linguistiques visuels sont confrontés à des défis importants. L'un des principaux problèmes est celui de l' hallucination, où le modèle décrit avec assurance des objets ou du texte dans une image qui n'existent tout simplement pas. Les chercheurs travaillent activement sur des techniques telles que l' apprentissage par renforcement à partir du retour d'information humain (RLHF) afin d'améliorer l'ancrage et la précision.
Un autre défi réside dans le coût informatique. La formation de ces modèles massifs nécessite d'importantes GPU . Cependant, la sortie d' architectures efficaces telles Ultralytics contribue à apporter des capacités de vision avancées aux appareils de pointe. À mesure que nous progressons, nous nous attendons à voir les VLM jouer un rôle crucial dans les agents robotiques, permettant aux robots de naviguer et de manipuler des objets sur la base d'instructions verbales complexes.
Pour ceux qui s'intéressent aux fondements théoriques, l'article original CLIP publié par OpenAI fournit d'excellentes informations sur le pré-entraînement contrastif langage-image. De plus, il est essentiel de se tenir au courant des articles publiés lors de la conférence CVPR pour suivre l'évolution rapide de ces architectures. Pour tester l'entraînement de vos propres modèles de vision, vous pouvez utiliser Ultralytics qui permet une gestion rationalisée des ensembles de données et le déploiement des modèles .