Glossaire

Réponse aux questions visuelles (VQA)

Découvrez le Visual Question Answering (VQA) : comment l'IA multimodale combine la vision par ordinateur et le NLP pour répondre à des questions basées sur l'image, avec des méthodes clés et des cas d'utilisation réels.

La réponse aux questions visuelles (RQV) est une tâche multidisciplinaire sophistiquée dans le cadre de l'intelligence artificielle (IA). l'intelligence artificielle (IA) qui l'intelligence artificielle ( IA ) qui comble le fossé entre la vision par ordinateur (CV) et le traitement du langage naturel (NLP). le traitement du langage naturel (NLP). Alors que les systèmes traditionnels de vision par ordinateur se concentrent sur la reconnaissance d'objets ou la classification d'images, les systèmes de réponse aux questions visuelles sont conçus pour fournir une réponse en langage naturel à une question spécifique. sont conçus pour fournir une réponse en langage naturel à une question spécifique basée sur le contenu visuel d'une image. Par exemple, une photo d'une scène de rue et la question "De quelle couleur est la voiture à gauche ? l'image, localise l'objet spécifique, détermine ses attributs et formule une réponse textuelle correcte. Cette Cette capacité à raisonner sur différentes modalités de données fait de l'AQV un élément fondamental de l'IA multimodale avancée. multimodale avancée.

Comment fonctionne la réponse visuelle aux questions

L'architecture d'un système d'AQV comprend généralement trois étapes principales : l'extraction des caractéristiques, la fusion multimodale et la génération de réponses. la génération de réponses. Dans un premier temps, le système utilise des modèles d'apprentissage profond pour traiter les entrées. Un modèle de vision, tel qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), extrait les caractéristiques visuelles de l'image. caractéristiques visuelles de l'image. Simultanément, le texte de la question est codé et converti en enregistrements à l'aide de modèles linguistiques. à l'aide de modèles de langage.

L'étape critique est la fusion de ces deux flux d'informations. Les systèmes modernes utilisent souvent un mécanisme d'attention, un concept popularisé par l'article de recherche "Attention Is All You Need", pour aligner les mots du les mots du texte avec les régions correspondantes de l'image. Cela permet au modèle de "regarder" la partie pertinente de l'image (par ex. l'image (par exemple, la voiture) lors du traitement du mot "couleur". Enfin, le modèle prédit une réponse, traitant ainsi le problème comme une tâche de classification spécialisée sur un ensemble de réponses possibles. L'entraînement de ces modèles nécessite des données d'entraînement massives et annotées, telles que les données de référence du VQA. comme l'ensemble de données de référence VQA, qui contient des millions de triplets image-question-réponse. d'images-questions-réponses.

Bien que les systèmes d'assurance qualité soient complexes, la composante visuelle repose souvent sur de solides capacités de détection. Vous pouvez voir comment un modèle modèle comme YOLO11 extrait des données fondamentales sur les objets :

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

Applications concrètes

La technologie VQA transforme les industries en permettant aux machines de comprendre le contexte à la manière des humains.

Technologie d'assistance pour les malvoyants: L'une des applications les plus importantes concerne les outils d'accessibilité. outils d'accessibilité. Des applications comme Be My Eyes s'appuient sur le raisonnement visuel pour décrire l'environnement aux utilisateurs aveugles ou malvoyants. décrire l'environnement aux utilisateurs aveugles ou malvoyants. Un utilisateur peut prendre une photo de son garde-manger et demander : "Cette boîte de soupe est-elle à la tomate ou au poulet ? Cette boîte de soupe est-elle à la tomate ou au poulet et nouilles ?", ce qui permet une plus grande autonomie dans la vie quotidienne.
Analyse d'images médicales: En l 'IA dans le domaine de la santé, VQA assiste les professionnels en en agissant comme un second avis intelligent. Un radiologue peut interroger un système à propos d'une IRM en posant des questions telles que : "Y a-t-il des signes de fracture dans cette région ? "Y a-t-il des signes de fracture dans cette région ?" Les recherches archivées dans PubMed montrent comment ces systèmes peuvent améliorer la précision du diagnostic et accélérer les flux de travail clinique. diagnostic et d'accélérer les flux de travail cliniques.
Surveillance intelligente: Les opérateurs de sécurité utilisent VQA pour interroger instantanément des heures de séquences vidéo. Au lieu de regarder manuellement les flux, un opérateur utilisant l l'IA dans le domaine de la sécurité pourrait simplement taper "Un camion rouge est-il entré dans l'établissement après minuit ?" pour retrouver les événements pertinents.

Relations avec les concepts connexes

Pour bien comprendre l'AQV, il convient de la distinguer de termes similaires dans le paysage de l'apprentissage machine (ML) dans le domaine de l'apprentissage automatique (ML):

VQA vs. légende d'image: Le sous-titrage d'une image consiste à générer une description générique de l'ensemble de l'image (par exemple, "Un chien qui joue dans le parc"). parc"). En revanche, l'AQV est orienté vers un objectif et répond à une question spécifique, ce qui nécessite un raisonnement plus ciblé.
VQA vs. Visual Grounding: L'ancrage est la tâche qui consiste à localiser un objet spécifique mentionné dans une description textuelle (par exemple, dessiner une boîte de délimitation autour de "l'homme en bleu"). une boîte de délimitation autour de "l'homme à la chemise bleue bleu"). L'AQV utilise souvent le repérage comme étape intermédiaire pour répondre à une question sur cet objet.
VQA vs. détection d'objets: Modèles de détection tels que YOLO11 identifient ce qui se trouve dans une image et où cela se trouve. VQA va plus loin pour comprendre les attributs et les relations de ces objets afin de répondre à la requête de l'utilisateur.

Le développement de VQA s'appuie sur des frameworks open-source tels que PyTorch et TensorFlowet continue d'évoluer avec la montée en puissance des des grands modèles de langage (LLM) intégrés dans les pipelines de vision.

Réponse aux questions visuelles (VQA)

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne la réponse visuelle aux questions

Applications concrètes

Relations avec les concepts connexes

En savoir plus dans cette catégorie

Apprentissage auto-supervisé pour le débruitage : une analyse étape par étape

Tendances futures en matière de détection d'objets : 7 éléments clés à surveiller

Améliorer la réidentification des véhicules avec les modèlesYOLO 'Ultralytics

Rejoindre la communauté Ultralytics