Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Modello linguistico visivo (VLM)

Esplora i modelli linguistici visivi (VLM) con Ultralytics. Scopri come collegano la visione artificiale e gli LLM per il VQA e il rilevamento a vocabolario aperto utilizzando Ultralytics .

Un modello linguistico visivo (VLM) è un tipo di intelligenza artificiale in grado di elaborare e interpretare contemporaneamente sia le informazioni visive (immagini o video) che quelle testuali. A differenza dei tradizionali modelli di visione artificiale che si concentrano esclusivamente sui dati pixel, o dei modelli linguistici di grandi dimensioni (LLM) che comprendono solo il testo, i VLM colmano il divario tra queste due modalità. Grazie all'addestramento su enormi set di dati contenenti coppie di immagini e testo, questi modelli imparano ad associare le caratteristiche visive ai concetti linguistici, consentendo loro di descrivere le immagini, rispondere a domande sulle scene visive e persino eseguire comandi basati su ciò che "vedono".

Come funzionano i modelli linguistici visivi

Fondamentalmente, i VLM sono costituiti da due componenti principali: un codificatore visivo e un codificatore testuale. Il codificatore visivo elabora le immagini per estrarre mappe di caratteristiche e rappresentazioni visive , mentre il codificatore testuale gestisce l'input linguistico. Questi flussi di dati distinti vengono poi fusi utilizzando meccanismi come la cross-attention per allineare le informazioni visive e testuali in uno spazio di incorporamento condiviso.

I recenti progressi nel 2024 e nel 2025 hanno portato a un'architettura più unificata, in cui un unico backbone del trasformatore gestisce entrambe le modalità. Ad esempio, modelli come Google 2 dimostrano come l'integrazione efficace di questi flussi possa migliorare le prestazioni in compiti di ragionamento complessi. Questo allineamento consente al modello di comprendere il contesto, ad esempio riconoscendo che la parola "mela" si riferisce a un frutto in un'immagine di un negozio di alimentari, ma a un'azienda tecnologica in un logo.

Applicazioni nel mondo reale

La capacità di comprendere il mondo attraverso la vista e il linguaggio apre la strada a diverse applicazioni in vari settori:

  • Risposte visive alle domande (VQA): i VLM sono ampiamente utilizzati nella diagnostica sanitaria per assistere i radiologi. Un medico potrebbe chiedere a un sistema: "C'è una frattura in questa radiografia?" e il modello analizza l'immagine medica per fornire una valutazione preliminare, riducendo gli errori diagnostici.
  • Ricerca intelligente nell'e-commerce: nei contesti di vendita al dettaglio, i VLM consentono agli utenti di cercare prodotti utilizzando descrizioni in linguaggio naturale combinate con immagini. Un acquirente potrebbe caricare una foto dell' abito di una celebrità e chiedere: "Trova un vestito con questo motivo ma di colore blu", e il sistema utilizza la ricerca semantica per recuperare corrispondenze accurate.
  • Sottotitoli automatici e accessibilità: i VLM generano automaticamente testi alternativi descrittivi per le immagini sul web, rendendo i contenuti digitali più accessibili agli utenti ipovedenti che utilizzano lettori di schermo.

Differenziare i VLM dai concetti correlati

Per comprendere il ruolo specifico dei VLM è utile distinguerli dalle altre categorie di IA:

  • VLM vs. LLM: un modello linguistico di grandi dimensioni (come le versioni solo testo di GPT-4 ) elabora solo dati testuali. Sebbene sia in grado di generare storie creative o codice, non può "vedere" un'immagine. Un VLM fornisce effettivamente degli occhi a un LLM.
  • VLM vs. Rilevamento oggetti: i modelli tradizionali di rilevamento oggetti, come le prime versioni YOLO , identificano dove si trovano gli oggetti e a quale classe appartengono (ad esempio, "Auto: 99%"). Un VLM va oltre, comprendendo le relazioni e gli attributi, come "un'auto sportiva rossa parcheggiata accanto a un idrante antincendio".
  • VLM vs. IA multimodale: L'IA multimodale è un termine generico più ampio. Sebbene tutti i VLM siano multimodali (combinano visione e linguaggio), non tutti i modelli multimodali sono VLM; alcuni potrebbero combinare audio e testo (come la conversione da voce a testo) o video e dati dei sensori senza una componente linguistica.

Rilevamento a vocabolario aperto con YOLO

I moderni VLM consentono il rilevamento "a vocabolario aperto", in cui è possibile detect utilizzando prompt di testo in formato libero anziché classi predefinite. Questa è una caratteristica fondamentale di modelli come Ultralytics YOLO, che consente definizioni di classe dinamiche senza necessità di riqualificazione.

L'esempio seguente mostra come utilizzare l'opzione ultralytics pacchetto per detect descritti dal testo:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Sfide e direzioni future

Sebbene potenti, i modelli linguistici visivi devono affrontare sfide significative. Una questione importante è l' allucinazione, in cui il modello descrive con sicurezza oggetti o testi in un'immagine che semplicemente non ci sono. I ricercatori stanno lavorando attivamente su tecniche come il Reinforcement Learning from Human Feedback (RLHF) per migliorare il fondamento e l'accuratezza.

Un'altra sfida è rappresentata dal costo computazionale. L'addestramento di questi modelli di grandi dimensioni richiede notevoli GPU . Tuttavia, il rilascio di architetture efficienti come Ultralytics sta contribuendo a portare funzionalità di visione avanzate sui dispositivi edge. Man mano che andiamo avanti, ci aspettiamo che i VLM svolgano un ruolo cruciale negli agenti robotici, consentendo ai robot di navigare e manipolare oggetti sulla base di istruzioni verbali complesse.

Per chi fosse interessato alle basi teoriche, il documento originale CLIP di OpenAI fornisce un'ottima panoramica sul pre-addestramento contrastivo linguaggio-immagine. Inoltre, per stare al passo con la rapida evoluzione di queste architetture è fondamentale tenersi aggiornati sui documenti della conferenza CVPR. Per sperimentare l'addestramento dei propri modelli di visione, è possibile utilizzare Ultralytics per una gestione semplificata dei set di dati e l'implementazione dei modelli .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora