Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réponse aux questions visuelles (VQA)

Découvrez la réponse visuelle à des questions (VQA) à la croisée du CV et du NLP. Découvrez comment Ultralytics optimise la VQA pour les applications en temps réel et l'IA multimodale.

La réponse à des questions visuelles (VQA) est une tâche sophistiquée d'intelligence artificielle qui se situe à l'intersection de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). Contrairement à la classification traditionnelle des images, qui attribue une seule étiquette à une image, les systèmes VQA sont conçus pour répondre à des questions ouvertes en langage naturel sur le contenu visuel d'une image. Par exemple, à partir d'une photo d'une cuisine, un utilisateur pourrait demander : « La cuisinière est-elle allumée ? » ou « Combien y a-t-il de pommes dans le bol ? ». Pour répondre correctement, le modèle doit comprendre la sémantique du texte, identifier les objets pertinents dans la scène et raisonner sur leurs attributs et leurs relations spatiales.

Cette capacité fait du VQA un élément fondamental de l' IA multimodale moderne, car il nécessite le traitement simultané de types de données disparates. L'architecture implique généralement un encodeur de vision, tel qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), pour extraire les caractéristiques de l'image, et un encodeur de texte pour traiter la requête linguistique. Les systèmes avancés utilisent un mécanisme d'attention pour aligner les concepts textuels avec des régions spécifiques de l'image, ce qui permet à l'IA de « regarder » les parties pertinentes de la photo avant de générer une réponse.

Applications concrètes et importance

La possibilité d'interroger dynamiquement des données visuelles a donné lieu à des applications transformatrices dans divers secteurs, améliorant l'automatisation et l'accessibilité.

  • Technologie d'assistance : la VQA est essentielle pour les applications destinées aux personnes malvoyantes. Des outils tels que Be My Eyes peuvent exploiter la VQA pour permettre aux utilisateurs de prendre une photo de leur environnement et de poser des questions telles que « Cette bouteille contient-elle du shampoing ou de l'après-shampoing ? » ou « Puis-je traverser la rue en toute sécurité ? ». Cela favorise une plus grande indépendance en convertissant les informations visuelles en réponses audibles.
  • Diagnostic médical : dans le domaine de l' IA appliquée aux soins de santé, les systèmes VQA assistent les radiologues en analysant les images médicales. Un praticien peut interroger un système au sujet d'une radiographie en posant des questions telles que : « Y a-t-il des signes de fracture dans le quadrant supérieur gauche ? » Les chercheurs des National Institutes of Health (NIH) ont exploré le VQA afin de rationaliser la prise de décision clinique et de réduire les erreurs de diagnostic.
  • Surveillance intelligente : les systèmes de sécurité modernes utilisent l'IA pour la sécurité afin d'analyser des heures d'enregistrements vidéo. Au lieu d'un examen manuel, les opérateurs peuvent demander : « Un camion rouge est-il entré dans le quai de chargement après minuit ? » Le VQA permet une détection rapide des anomalies sur la base de critères spécifiques plutôt que d'alertes de mouvement génériques.

Le rôle de la détection d'objets dans le VQA

Si certains modèles VQA sont entraînés de bout en bout, beaucoup s'appuient sur une infrastructure robuste de détection d'objets pour identifier les éléments de la scène en premier lieu. La localisation précise des objets fournit le contexte nécessaire au moteur de raisonnement. Le modèle Ultralytics constitue une excellente base pour ces pipelines en raison de sa grande précision et de ses performances en temps réel.

Par exemple, les développeurs peuvent utiliser YOLO26 pour extraire des classes d'objets et des cadres de sélection, qui sont ensuite intégrés dans un grand modèle linguistique (LLM) ou un module de raisonnement spécialisé afin de répondre aux requêtes des utilisateurs. La gestion des ensembles de données pour former ces bases de détection est souvent rationalisée à l'aide de la Ultralytics , qui simplifie l'annotation et la formation dans le cloud.

Python suivant montre comment utiliser YOLO26 pour extraire le contexte visuel (objets et leur emplacement) d'une image, ce qui constitue la première étape d'un workflow VQA :

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
    result.show()  # Visualize the detections

Distinguer la VQA des concepts connexes

Il est utile de différencier le VQA des tâches similaires de vision-langage afin de comprendre son champ d'application unique.

  • VQA vs. Légende d'image : La légende d'image génère une description générique et statique de l'ensemble d'une image (par exemple, « Un chien qui joue dans le parc »). Le VQA est interactif et spécifique ; il fournit une réponse ciblée à la question d'un utilisateur plutôt qu'un résumé général.
  • VQA vs Visual Grounding : Le Visual Grounding consiste à localiser un objet spécifique mentionné dans une phrase en dessinant un cadre autour de celui-ci. Le VQA va plus loin en analysant les attributs, les actions ou les quantités des objets trouvés.
  • VQA vs OCR : alors que la reconnaissance optique de caractères (OCR) sert strictement à extraire du texte à partir d'images, la VQA peut intégrer l'OCR pour répondre à des questions telles que « Que dit le panneau de signalisation ? ». Cependant, la fonction principale de la VQA comprend une compréhension plus large de la scène, au-delà de la simple lecture de texte.

Les chercheurs continuent de faire progresser le domaine à l'aide de benchmarks à grande échelle tels que le jeu de données VQA, qui aide les modèles à généraliser à partir de millions de paires image-question . À mesure que le matériel s'améliore, permettant une latence d'inférence plus rapide, le VQA devient de plus en plus viable pour les applications mobiles et de pointe en temps réel.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant