Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réponse aux questions visuelles (VQA)

Découvrez le Visual Question Answering (VQA) : comment l'IA multimodale combine la vision par ordinateur et le NLP pour répondre à des questions basées sur l'image, avec des méthodes clés et des cas d'utilisation réels.

La réponse à des questions visuelles (VQA) est une tâche multidisciplinaire difficile qui se situe à la croisée de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). Contrairement à la classification d'images standard, où un système attribue simplement une étiquette à une image, les systèmes VQA sont conçus pour répondre à des questions ouvertes sur une image en utilisant le langage naturel. Par exemple, si on lui présente une photo d'une scène de rue , un utilisateur pourrait demander : « De quelle couleur est la voiture à côté de la borne d'incendie ? » Pour répondre correctement, l'IA doit comprendre la question, localiser les objets mentionnés (voiture, borne d'incendie), comprendre leur relation spatiale (à côté de ) et identifier l'attribut spécifique (couleur).

Cette capacité fait du VQA la pierre angulaire de l' IA multimodale moderne, car il nécessite un modèle capable de raisonner simultanément sur différents types de données. Le système utilise généralement un encodeur visuel, tel qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), pour interpréter les caractéristiques visuelles, et un encodeur de texte pour traiter la requête linguistique. Ces entrées sont ensuite combinées à l'aide de techniques de fusion , souvent en tirant parti d'un mécanisme d'attention pour se concentrer sur les parties pertinentes de l'image qui correspondent aux mots de la question.

Applications concrètes

La possibilité d'interroger dynamiquement des données visuelles ouvre d'importantes perspectives dans divers secteurs.

  • Technologie d'assistance pour les utilisateurs malvoyants : la VQA est une technologie essentielle pour les applications d'accessibilité telles que Be My Eyes. Grâce à l'intégration de la VQA, ces applications permettent aux utilisateurs de pointer l'appareil photo de leur smartphone vers leur environnement et de poser des questions telles que « Est-ce que cette bouteille contient du shampoing ou de l' après-shampoing ? » ou « Le feu du passage piéton est-il vert ? ». Le système traite le flux vidéo en direct et fournit une réponse audio, favorisant ainsi une plus grande indépendance.
  • Surveillance et sécurité intelligentes : dans le domaine de l' IA appliquée à la sécurité, les opérateurs doivent souvent passer au crible des heures d'enregistrements vidéo. Au lieu d'un examen manuel, un système compatible VQA permet au personnel de sécurité de poser des questions naturelles telles que « Un camion rouge est-il entré dans le quai de chargement après minuit ? » ou « Combien de personnes portent un casque de sécurité ? ». Cela rationalise le processus de détection des anomalies et améliore les temps de réponse.

Comment la VQA est liée à la détection d'objets

Bien qu'il existe des modèles VQA de bout en bout, de nombreux pipelines pratiques s'appuient sur une détection d'objets robuste comme étape fondamentale. Un détecteur identifie et localise les objets, ce qui fournit le contexte nécessaire au moteur de réponse.

Par exemple, vous pouvez utiliser YOLO26 pour extraire les classes et les emplacements d'objets, qui peuvent ensuite être intégrés dans un modèle linguistique ou un module de raisonnement spécialisé.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

Distinguer VQA des termes apparentés

Il est important de différencier la VQA des autres tâches de langage visuel afin de comprendre son rôle spécifique.

  • VQA vs. Légende d'image: La légende d'image génère une description générique de l'ensemble d'une image (par exemple, « Un chien jouant dans l'herbe »). Le VQA est plus spécifique et interactif ; il répond à une question ciblée plutôt que de fournir un résumé général.
  • VQA vs. Visual Grounding: Le Visual Grounding se concentre sur la localisation d'un objet spécifique mentionné dans une phrase (par exemple, dessiner un cadre autour de « l'homme grand »). Le VQA va plus loin en ne se contentant pas de localiser l'objet, mais en analysant également ses attributs ou ses relations pour répondre à une question.
  • VQA vs. Reconnaissance optique de caractères (OCR): L'OCR extrait le texte des images. Si la VQA peut utiliser l'OCR pour répondre à une question telle que « Que dit le panneau ? », la VQA est une capacité plus large qui englobe la compréhension des objets, des actions et des scènes, et ne se limite pas à la lecture de texte.

La recherche moderne utilise souvent des ensembles de données à grande échelle comme le VQA Dataset pour entraîner ces modèles, ce qui les aide à généraliser à partir de millions de paires image-question. À mesure que les grands modèles linguistiques (LLM) continuent d' évoluer, les capacités VQA sont de plus en plus intégrées directement dans les modèles de base, estompant ainsi les frontières entre les tâches purement visuelles et purement linguistiques.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant