Découvrez la réponse visuelle à des questions (VQA) à la croisée du CV et du NLP. Découvrez comment Ultralytics optimise la VQA pour les applications en temps réel et l'IA multimodale.
La réponse à des questions visuelles (VQA) est une tâche sophistiquée d'intelligence artificielle qui se situe à l'intersection de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). Contrairement à la classification traditionnelle des images, qui attribue une seule étiquette à une image, les systèmes VQA sont conçus pour répondre à des questions ouvertes en langage naturel sur le contenu visuel d'une image. Par exemple, à partir d'une photo d'une cuisine, un utilisateur pourrait demander : « La cuisinière est-elle allumée ? » ou « Combien y a-t-il de pommes dans le bol ? ». Pour répondre correctement, le modèle doit comprendre la sémantique du texte, identifier les objets pertinents dans la scène et raisonner sur leurs attributs et leurs relations spatiales.
Cette capacité fait du VQA un élément fondamental de l' IA multimodale moderne, car il nécessite le traitement simultané de types de données disparates. L'architecture implique généralement un encodeur de vision, tel qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), pour extraire les caractéristiques de l'image, et un encodeur de texte pour traiter la requête linguistique. Les systèmes avancés utilisent un mécanisme d'attention pour aligner les concepts textuels avec des régions spécifiques de l'image, ce qui permet à l'IA de « regarder » les parties pertinentes de la photo avant de générer une réponse.
La possibilité d'interroger dynamiquement des données visuelles a donné lieu à des applications transformatrices dans divers secteurs, améliorant l'automatisation et l'accessibilité.
Si certains modèles VQA sont entraînés de bout en bout, beaucoup s'appuient sur une infrastructure robuste de détection d'objets pour identifier les éléments de la scène en premier lieu. La localisation précise des objets fournit le contexte nécessaire au moteur de raisonnement. Le modèle Ultralytics constitue une excellente base pour ces pipelines en raison de sa grande précision et de ses performances en temps réel.
Par exemple, les développeurs peuvent utiliser YOLO26 pour extraire des classes d'objets et des cadres de sélection, qui sont ensuite intégrés dans un grand modèle linguistique (LLM) ou un module de raisonnement spécialisé afin de répondre aux requêtes des utilisateurs. La gestion des ensembles de données pour former ces bases de détection est souvent rationalisée à l'aide de la Ultralytics , qui simplifie l'annotation et la formation dans le cloud.
Python suivant montre comment utiliser YOLO26 pour extraire le contexte visuel (objets et leur emplacement) d'une image, ce qui constitue la première étape d'un workflow VQA :
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
result.show() # Visualize the detections
Il est utile de différencier le VQA des tâches similaires de vision-langage afin de comprendre son champ d'application unique.
Les chercheurs continuent de faire progresser le domaine à l'aide de benchmarks à grande échelle tels que le jeu de données VQA, qui aide les modèles à généraliser à partir de millions de paires image-question . À mesure que le matériel s'améliore, permettant une latence d'inférence plus rapide, le VQA devient de plus en plus viable pour les applications mobiles et de pointe en temps réel.