Esplora i modelli linguistici visivi (VLM) con Ultralytics. Scopri come collegano la visione artificiale e gli LLM per il VQA e il rilevamento a vocabolario aperto utilizzando Ultralytics .
Un modello linguistico visivo (VLM) è un tipo di intelligenza artificiale in grado di elaborare e interpretare contemporaneamente sia le informazioni visive (immagini o video) che quelle testuali. A differenza dei tradizionali modelli di visione artificiale che si concentrano esclusivamente sui dati pixel, o dei modelli linguistici di grandi dimensioni (LLM) che comprendono solo il testo, i VLM colmano il divario tra queste due modalità. Grazie all'addestramento su enormi set di dati contenenti coppie di immagini e testo, questi modelli imparano ad associare le caratteristiche visive ai concetti linguistici, consentendo loro di descrivere le immagini, rispondere a domande sulle scene visive e persino eseguire comandi basati su ciò che "vedono".
Fondamentalmente, i VLM sono costituiti da due componenti principali: un codificatore visivo e un codificatore testuale. Il codificatore visivo elabora le immagini per estrarre mappe di caratteristiche e rappresentazioni visive , mentre il codificatore testuale gestisce l'input linguistico. Questi flussi di dati distinti vengono poi fusi utilizzando meccanismi come la cross-attention per allineare le informazioni visive e testuali in uno spazio di incorporamento condiviso.
I recenti progressi nel 2024 e nel 2025 hanno portato a un'architettura più unificata, in cui un unico backbone del trasformatore gestisce entrambe le modalità. Ad esempio, modelli come Google 2 dimostrano come l'integrazione efficace di questi flussi possa migliorare le prestazioni in compiti di ragionamento complessi. Questo allineamento consente al modello di comprendere il contesto, ad esempio riconoscendo che la parola "mela" si riferisce a un frutto in un'immagine di un negozio di alimentari, ma a un'azienda tecnologica in un logo.
La capacità di comprendere il mondo attraverso la vista e il linguaggio apre la strada a diverse applicazioni in vari settori:
Per comprendere il ruolo specifico dei VLM è utile distinguerli dalle altre categorie di IA:
I moderni VLM consentono il rilevamento "a vocabolario aperto", in cui è possibile detect utilizzando prompt di testo in formato libero anziché classi predefinite. Questa è una caratteristica fondamentale di modelli come Ultralytics YOLO, che consente definizioni di classe dinamiche senza necessità di riqualificazione.
L'esempio seguente mostra come utilizzare l'opzione ultralytics pacchetto per detect
descritti dal testo:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Sebbene potenti, i modelli linguistici visivi devono affrontare sfide significative. Una questione importante è l' allucinazione, in cui il modello descrive con sicurezza oggetti o testi in un'immagine che semplicemente non ci sono. I ricercatori stanno lavorando attivamente su tecniche come il Reinforcement Learning from Human Feedback (RLHF) per migliorare il fondamento e l'accuratezza.
Un'altra sfida è rappresentata dal costo computazionale. L'addestramento di questi modelli di grandi dimensioni richiede notevoli GPU . Tuttavia, il rilascio di architetture efficienti come Ultralytics sta contribuendo a portare funzionalità di visione avanzate sui dispositivi edge. Man mano che andiamo avanti, ci aspettiamo che i VLM svolgano un ruolo cruciale negli agenti robotici, consentendo ai robot di navigare e manipolare oggetti sulla base di istruzioni verbali complesse.
Per chi fosse interessato alle basi teoriche, il documento originale CLIP di OpenAI fornisce un'ottima panoramica sul pre-addestramento contrastivo linguaggio-immagine. Inoltre, per stare al passo con la rapida evoluzione di queste architetture è fondamentale tenersi aggiornati sui documenti della conferenza CVPR. Per sperimentare l'addestramento dei propri modelli di visione, è possibile utilizzare Ultralytics per una gestione semplificata dei set di dati e l'implementazione dei modelli .