Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Visual Question Answering (VQA)

Explore le Visual Question Answering (VQA) à l'intersection de la CV et du NLP. Apprends comment Ultralytics YOLO26 propulse le VQA pour des applications en temps réel et l'IA multimodale.

Le Visual Question Answering (VQA) est une tâche sophistiquée d'intelligence artificielle qui se situe à l'intersection de la Computer Vision (CV) et du Natural Language Processing (NLP). Contrairement à la classification d'images traditionnelle, qui attribue une étiquette unique à une image, les systèmes de VQA sont conçus pour répondre à des questions ouvertes en langage naturel sur le contenu visuel d'une image. Par exemple, devant la photographie d'une cuisine, un utilisateur pourrait demander : "Le poêle est-il allumé ?" ou "Combien y a-t-il de pommes dans le bol ?". Pour répondre correctement, le modèle doit comprendre la sémantique du texte, identifier les objets pertinents dans la scène et raisonner sur leurs attributs et leurs relations spatiales.

Cette capacité fait du VQA un composant fondamental de l'IA multimodale moderne, car elle exige le traitement simultané de types de données disparates. L'architecture implique généralement un encodeur de vision, tel qu'un Convolutional Neural Network (CNN) ou un Vision Transformer (ViT), pour extraire des caractéristiques de l'image, et un encodeur de texte pour traiter la requête linguistique. Les systèmes avancés utilisent un mécanisme d'attention pour aligner les concepts textuels avec des régions spécifiques de l'image, permettant à l'IA de "regarder" les parties pertinentes de la photo avant de générer une réponse.

Link to this sectionApplications concrètes et importance#

La capacité d'interroger dynamiquement des données visuelles a conduit à des applications transformatrices dans divers secteurs, améliorant l'automatisation et l'accessibilité.

  • Technologie d'assistance : Le VQA est vital pour les applications soutenant les personnes malvoyantes. Des outils comme Be My Eyes peuvent exploiter le VQA pour permettre aux utilisateurs de prendre une photo de leur environnement et de poser des questions telles que : "Ce flacon est-il du shampoing ou de l'après-shampoing ?" ou "Est-il sûr de traverser la rue ?". Cela favorise une plus grande autonomie en convertissant les informations visuelles en réponses audibles.
  • Diagnostic médical : Dans le domaine de l'IA dans la santé, les systèmes de VQA assistent les radiologues en analysant l'imagerie médicale. Un praticien pourrait interroger un système sur une radiographie avec des questions telles que : "Y a-t-il des signes de fracture dans le quadrant supérieur gauche ?". Des chercheurs des National Institutes of Health (NIH) ont exploré le VQA pour rationaliser la prise de décision clinique et réduire les erreurs de diagnostic.
  • Surveillance intelligente : Les systèmes de sécurité modernes utilisent l'IA pour la sécurité pour analyser des heures d'enregistrements vidéo. Au lieu d'une revue manuelle, les opérateurs peuvent demander : "Un camion rouge est-il entré sur le quai de chargement après minuit ?". Le VQA permet une détection d'anomalies rapide basée sur des critères spécifiques plutôt que sur de simples alertes de mouvement génériques.

Link to this sectionLe rôle de la détection d'objets dans le VQA#

Bien que certains modèles de VQA soient entraînés de bout en bout, beaucoup s'appuient sur une base solide de détection d'objets pour identifier d'abord les éléments de la scène. Localiser précisément les objets fournit le contexte nécessaire au moteur de raisonnement. Le modèle Ultralytics YOLO26 constitue une excellente base pour ces pipelines en raison de sa grande précision et de ses performances en temps réel.

Par exemple, les développeurs peuvent utiliser YOLO26 pour extraire les classes d'objets et les boîtes englobantes, qui sont ensuite transmises à un Large Language Model (LLM) ou à un module de raisonnement spécialisé pour répondre aux requêtes des utilisateurs. La gestion des jeux de données pour entraîner ces bases de détection est souvent rationalisée à l'aide de l'Ultralytics Platform, qui simplifie l'annotation et l'entraînement dans le cloud.

L'exemple Python suivant montre comment utiliser YOLO26 pour extraire le contexte visuel (objets et leurs emplacements) d'une image, ce qui constitue l'étape principale d'un flux de travail VQA :

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
    result.show()  # Visualize the detections

Link to this sectionDistinction entre le VQA et les concepts connexes#

Il est utile de différencier le VQA des tâches vision-langage similaires pour comprendre sa portée unique.

  • VQA vs Légendage d'image : Le légendage d'image génère une description statique et générique d'une image entière (par exemple, "Un chien joue dans le parc"). Le VQA est interactif et spécifique ; il fournit une réponse ciblée à la question d'un utilisateur plutôt qu'un résumé général.
  • VQA vs Grounding visuel : Le grounding visuel se concentre sur la localisation d'un objet spécifique mentionné dans une phrase textuelle en dessinant une bounding box autour de lui. Le VQA va plus loin en analysant les attributs, les actions ou les quantités des objets trouvés.
  • VQA vs OCR : Alors que l'Optical Character Recognition (OCR) sert strictement à extraire du texte d'images, le VQA peut intégrer l'OCR pour répondre à des questions comme "Que dit le panneau de signalisation ?". Cependant, la fonction principale du VQA inclut une compréhension plus large de la scène au-delà de la simple lecture de texte.

Les chercheurs continuent de faire progresser le domaine en utilisant des benchmarks à grande échelle tels que le VQA Dataset, qui aide les modèles à généraliser sur des millions de paires image-question. À mesure que le matériel s'améliore, permettant une latence d'inférence plus rapide, le VQA devient de plus en plus viable pour les applications mobiles et en périphérie en temps réel.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique