Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Modello Multimodale

Explore how multi-modal models integrate text and vision to mimic human perception. Learn about architectures like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and the [Ultralytics Platform](https://platform.ultralytics.com).

Un modello multimodale è un tipo avanzato di sistema di intelligenza artificiale (AI) in grado di elaborare, interpretare e integrare simultaneamente informazioni provenienti da diversi tipi di dati, o "modalità". Mentre i sistemi unimodali tradizionali sono specializzati in un unico dominio, come l' elaborazione del linguaggio naturale (NLP) per il testo o la visione artificiale (CV) per le immagini, i modelli multimodali mirano a imitare la percezione umana sintetizzando insieme segnali visivi, uditivi e linguistici . Questa convergenza consente al modello di sviluppare una comprensione completa del mondo, permettendogli di tracciare correlazioni complesse tra una scena visiva e una descrizione verbale. Queste capacità sono considerate passi fondamentali verso il raggiungimento dell' intelligenza artificiale generale (AGI).

Meccanismi fondamentali e architettura

L'efficacia di un modello multimodale dipende dalla sua capacità di mappare diversi tipi di dati in uno spazio semantico condiviso. Questo processo inizia in genere con la creazione di incorporamenti, ovvero rappresentazioni numeriche che catturano il significato essenziale dei dati di input. Attraverso l'addestramento su enormi set di dati di esempi accoppiati, come video con sottotitoli, il modello impara ad allineare la rappresentazione vettoriale di un'immagine di "gatto" con l'embedding testuale della parola "gatto".

Diversi concetti architettonici chiave rendono possibile questa integrazione:

  • Architettura del trasformatore: molti sistemi multimodali utilizzano trasformatori, che impiegano meccanismi di attenzione per valutare dinamicamente l' importanza delle diverse parti di input. Ciò consente a un modello di concentrarsi su specifiche regioni dell'immagine che corrispondono a parole rilevanti in un prompt di testo, un concetto descritto in dettaglio nel fondamentale articolo di ricerca "Attention Is All You Need".
  • Fusione dei dati: si riferisce alla strategia di combinare informazioni provenienti da fonti diverse. La fusione dei sensori può avvenire in anticipo, unendo i dati grezzi, o in ritardo , combinando le decisioni di sottomodelli separati. I framework moderni come PyTorch offrono la flessibilità necessaria per costruire queste complesse pipeline.
  • Apprendimento contrastivo: le tecniche utilizzate da modelli come CLIP di OpenAI addestrano il sistema a ridurre al minimo la distanza tra le coppie testo-immagine corrispondenti nello spazio vettoriale, massimizzando al contempo la distanza tra le coppie non corrispondenti.

Applicazioni nel mondo reale

I modelli multimodali hanno sbloccato funzionalità che prima erano impossibili da ottenere con i sistemi monomodali.

  • Risposte visive alle domande (VQA): Questi sistemi consentono agli utenti di porre domande in linguaggio naturale su un'immagine. Ad esempio, un utente ipovedente potrebbe caricare una foto di una dispensa e chiedere: "C'è una lattina di zuppa sul ripiano superiore?" Il modello utilizza il rilevamento degli oggetti per identificare gli articoli e l'NLP per comprendere la query, fornendo una risposta utile.
  • Veicoli autonomi: Le auto a guida autonoma funzionano come agenti multimodali in tempo reale. Combinano immagini visive provenienti dalle telecamere, informazioni sulla profondità provenienti dal LiDAR e dati sulla velocità provenienti dal radar. Questa ridondanza garantisce che, se un sensore è ostruito dalle condizioni meteorologiche, gli altri possano mantenere la sicurezza stradale.
  • Rilevamento a vocabolario aperto: modelli come Ultralytics YOLO consentono agli utenti di detect oggetti utilizzando prompt di testo arbitrari anziché un elenco fisso di classi. Ciò colma il divario tra comandi linguistici e riconoscimento visivo.

Esempio: Rilevamento a vocabolario aperto

L'esempio seguente mostra come utilizzare l'opzione ultralytics libreria per eseguire il rilevamento a vocabolario aperto, in cui il modello interpreta i prompt di testo per identificare gli oggetti in un'immagine:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Distinzione dai termini correlati

È utile distinguere il "modello multimodale" dai concetti correlati presenti nel glossario dell'IA:

  • Apprendimento multimodale: si riferisce al processo e alle tecniche di apprendimento automatico (ML) utilizzati per addestrare questi sistemi. Il modello multimodale è il prodotto o il software risultante da tale processo di apprendimento.
  • Modelli linguistici di grandi dimensioni (LLM): I modelli LLM tradizionali elaborano solo il testo. Sebbene molti si stiano evolvendo in modelli visione-linguaggio (VLM), un LLM standard è unimodale.
  • Modelli di base: si tratta di una categoria più ampia che descrive modelli su larga scala adattabili a molte attività a valle. Sebbene un modello multimodale sia spesso un modello di base, non tutti i modelli di base gestiscono modalità multiple.

Il futuro dell'intelligenza artificiale multimodale

Il settore sta avanzando rapidamente verso sistemi in grado di elaborare flussi continui di audio, video e testo in tempo reale. La ricerca di organizzazioni come Google continua a spingere i confini della percezione artificiale. Noi di Ultralytics supportiamo questo ecosistema con backbone di visione ad alte prestazioni come YOLO26. Rilasciato nel 2026, YOLO26 offre velocità e precisione superiori per attività come la segmentazione delle istanze, fungendo da componente visivo efficiente in pipeline multimodali più grandi. Gli sviluppatori possono gestire i dati, la formazione e l'implementazione di questi flussi di lavoro complessi utilizzando la Ultralytics unificata Ultralytics .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora