Découvrez le Visual Question Answering (VQA) : comment l'IA multimodale combine la vision par ordinateur et le NLP pour répondre à des questions basées sur l'image, avec des méthodes clés et des cas d'utilisation réels.
La réponse aux questions visuelles (RQV) est une tâche multidisciplinaire sophistiquée dans le cadre de l'intelligence artificielle (IA). l'intelligence artificielle (IA) qui l'intelligence artificielle ( IA ) qui comble le fossé entre la vision par ordinateur (CV) et le traitement du langage naturel (NLP). le traitement du langage naturel (NLP). Alors que les systèmes traditionnels de vision par ordinateur se concentrent sur la reconnaissance d'objets ou la classification d'images, les systèmes de réponse aux questions visuelles sont conçus pour fournir une réponse en langage naturel à une question spécifique. sont conçus pour fournir une réponse en langage naturel à une question spécifique basée sur le contenu visuel d'une image. Par exemple, une photo d'une scène de rue et la question "De quelle couleur est la voiture à gauche ? l'image, localise l'objet spécifique, détermine ses attributs et formule une réponse textuelle correcte. Cette Cette capacité à raisonner sur différentes modalités de données fait de l'AQV un élément fondamental de l'IA multimodale avancée. multimodale avancée.
L'architecture d'un système d'AQV comprend généralement trois étapes principales : l'extraction des caractéristiques, la fusion multimodale et la génération de réponses. la génération de réponses. Dans un premier temps, le système utilise des modèles d'apprentissage profond pour traiter les entrées. Un modèle de vision, tel qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), extrait les caractéristiques visuelles de l'image. caractéristiques visuelles de l'image. Simultanément, le texte de la question est codé et converti en enregistrements à l'aide de modèles linguistiques. à l'aide de modèles de langage.
L'étape critique est la fusion de ces deux flux d'informations. Les systèmes modernes utilisent souvent un mécanisme d'attention, un concept popularisé par l'article de recherche "Attention Is All You Need", pour aligner les mots du les mots du texte avec les régions correspondantes de l'image. Cela permet au modèle de "regarder" la partie pertinente de l'image (par ex. l'image (par exemple, la voiture) lors du traitement du mot "couleur". Enfin, le modèle prédit une réponse, traitant ainsi le problème comme une tâche de classification spécialisée sur un ensemble de réponses possibles. L'entraînement de ces modèles nécessite des données d'entraînement massives et annotées, telles que les données de référence du VQA. comme l'ensemble de données de référence VQA, qui contient des millions de triplets image-question-réponse. d'images-questions-réponses.
Bien que les systèmes d'assurance qualité soient complexes, la composante visuelle repose souvent sur de solides capacités de détection. Vous pouvez voir comment un modèle modèle comme YOLO11 extrait des données fondamentales sur les objets :
from ultralytics import YOLO
# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()
La technologie VQA transforme les industries en permettant aux machines de comprendre le contexte à la manière des humains.
Pour bien comprendre l'AQV, il convient de la distinguer de termes similaires dans le paysage de l'apprentissage machine (ML) dans le domaine de l'apprentissage automatique (ML):
Le développement de VQA s'appuie sur des frameworks open-source tels que PyTorch et TensorFlowet continue d'évoluer avec la montée en puissance des des grands modèles de langage (LLM) intégrés dans les pipelines de vision.