Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Risposta alle domande visive (VQA)

Scoprite il Visual Question Answering (VQA): come l'IA multimodale combina la computer vision e l'NLP per rispondere a domande basate sulle immagini, con metodi chiave e casi d'uso reali.

Il Visual Question Answering (VQA) è un compito multidisciplinare complesso che si colloca all'intersezione tra Computer Vision (CV) e Natural Language Processing (NLP). A differenza della classificazione standard delle immagini, in cui un sistema assegna semplicemente un'etichetta a un'immagine, i sistemi VQA sono progettati per rispondere a domande aperte su un'immagine utilizzando il linguaggio naturale. Ad esempio, se viene presentata una foto di una scena di strada , un utente potrebbe chiedere: "Di che colore è l'auto accanto all'idrante antincendio?" Per rispondere correttamente, l'IA deve comprendere la domanda, individuare gli oggetti menzionati (auto, idrante antincendio), comprenderne la relazione spaziale (accanto ) e identificare l'attributo specifico (colore).

Questa capacità rende il VQA una pietra miliare dell'intelligenza artificiale multimodale moderna , poiché richiede un modello in grado di ragionare su diversi tipi di dati contemporaneamente. Il sistema utilizza tipicamente un codificatore visivo, come una rete neurale convoluzionale (CNN) o un trasformatore visivo (ViT), per interpretare le caratteristiche visive, e un codificatore di testo per elaborare la query linguistica. Questi input vengono poi combinati utilizzando tecniche di fusione, spesso sfruttando un meccanismo di attenzione per concentrarsi sulle parti rilevanti dell'immagine che corrispondono alle parole della domanda.

Applicazioni nel mondo reale

La possibilità di interrogare i dati visivi in modo dinamico apre importanti possibilità in vari settori industriali.

  • Tecnologia assistiva per utenti ipovedenti: il VQA è una tecnologia fondamentale per le app di accessibilità come Be My Eyes. Integrando il VQA, queste applicazioni consentono agli utenti di puntare la fotocamera dello smartphone verso l'ambiente circostante e porre domande come "Questa bottiglia è shampoo o balsamo?" o "Il semaforo pedonale è verde?". Il sistema elabora il feed video in diretta e fornisce una risposta audio, favorendo una maggiore indipendenza.
  • Sorveglianza e sicurezza intelligenti: nel campo dell' intelligenza artificiale applicata alla sicurezza, gli operatori devono spesso esaminare ore di filmati. Invece della revisione manuale, un sistema abilitato VQA consente al personale di sicurezza di porre domande naturali come "Un camion rosso è entrato nella zona di carico dopo mezzanotte?" o "Quante persone indossano elmetti protettivi?". Ciò semplifica il processo di rilevamento delle anomalie e migliora i tempi di risposta .

Come la VQA è correlata al rilevamento degli oggetti

Sebbene esistano modelli VQA end-to-end, molte pipeline pratiche si basano sul rilevamento robusto degli oggetti come fase fondamentale. Un rilevatore identifica e localizza gli oggetti, fornendo il contesto necessario al motore di risposta.

Ad esempio, è possibile utilizzare YOLO26 per estrarre classi e posizioni di oggetti, che possono poi essere inserite in un modello linguistico o in un modulo di ragionamento specializzato.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

Distinguere VQA dai termini correlati

È importante distinguere il VQA dagli altri compiti di visione-linguaggio per comprenderne il ruolo specifico.

  • VQA vs. Didascalia delle immagini: la didascalia delle immagini genera una descrizione generica dell'intera immagine (ad esempio, "Un cane che gioca sull'erba"). Il VQA è più specifico e interattivo; risponde a una domanda mirata piuttosto che fornire un riassunto generico.
  • VQA vs. Visual Grounding: il Visual Grounding si concentra sull'individuazione di un oggetto specifico menzionato in una frase (ad esempio, disegnando un riquadro attorno all'"uomo alto"). Il VQA fa un passo avanti, non solo individuando l'oggetto, ma anche analizzandone gli attributi o le relazioni per rispondere a una domanda.
  • VQA vs. Riconoscimento ottico dei caratteri (OCR): L'OCR estrae il testo dalle immagini. Sebbene il VQA possa utilizzare l'OCR per rispondere a una domanda come "Cosa dice il cartello ?", il VQA è una capacità più ampia che comprende la comprensione di oggetti, azioni e scene, non solo la lettura del testo.

La ricerca moderna utilizza spesso set di dati su larga scala come il VQA Dataset per addestrare questi modelli, aiutandoli a generalizzare su milioni di coppie immagine-domanda. Con la continua evoluzione dei Large Language Models (LLM), le capacità VQA vengono sempre più integrate direttamente nei modelli di base, rendendo meno netto il confine tra attività di visione pura e attività di linguaggio puro.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora