Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Multi-Modal Model

Esplora come i modelli multimodali integrano testo, immagini e audio. Scopri architetture come Ultralytics YOLO26 e distribuisci la visione IA sulla piattaforma Ultralytics.

Un modello multi-modale è un tipo avanzato di sistema di intelligenza artificiale (IA) in grado di elaborare, interpretare e integrare informazioni provenienti da molteplici tipi di dati diversi, o "modalità", simultaneamente. Mentre i sistemi unimodali tradizionali si specializzano in un singolo dominio — come il Natural Language Processing (NLP) per il testo o la Computer Vision (CV) per le immagini — i modelli multi-modali mirano a imitare la percezione umana sintetizzando insieme segnali visivi, uditivi e linguistici. Questa convergenza permette al modello di sviluppare una comprensione completa del mondo, consentendogli di tracciare correlazioni complesse tra una scena visiva e una descrizione parlata. Queste capacità sono considerate passi fondamentali verso il raggiungimento dell'Intelligenza Artificiale Generale (AGI).

Link to this sectionMeccanismi di base e architettura#

L'efficacia di un modello multi-modale si basa sulla sua capacità di mappare diversi tipi di dati in uno spazio semantico condiviso. Questo processo inizia tipicamente con la creazione di embedding, che sono rappresentazioni numeriche che catturano il significato essenziale dei dati di input. Addestrandosi su enormi dataset di esempi accoppiati, come video con sottotitoli, il modello impara ad allineare la rappresentazione vettoriale di un'immagine di un "gatto" con l'embedding testuale della parola "gatto".

Diversi concetti architetturali chiave rendono possibile questa integrazione:

  • Architettura Transformer: Molti sistemi multi-modali utilizzano i transformer, che impiegano meccanismi di attenzione per pesare dinamicamente l'importanza di diverse parti dell'input. Ciò consente a un modello di concentrarsi su specifiche regioni dell'immagine che corrispondono a parole rilevanti in un prompt testuale, un concetto dettagliato nel fondamentale paper di ricerca "Attention Is All You Need".
  • Fusione dei dati: Questo si riferisce alla strategia di combinare informazioni provenienti da fonti diverse. La fusione dei sensori può avvenire precocemente unendo dati grezzi o tardivamente combinando le decisioni di sotto-modelli separati. Framework moderni come PyTorch forniscono la flessibilità necessaria per costruire questi pipeline complessi.
  • Apprendimento contrastivo: Le tecniche utilizzate da modelli come CLIP di OpenAI addestrano il sistema a minimizzare la distanza tra coppie testo-immagine corrispondenti nello spazio vettoriale, massimizzando al contempo la distanza tra coppie non corrispondenti.

Link to this sectionApplicazioni nel mondo reale#

I modelli multi-modali hanno sbloccato capacità che in precedenza erano impossibili da ottenere per i sistemi a singola modalità.

  • Visual Question Answering (VQA): Questi sistemi consentono agli utenti di porre domande in linguaggio naturale su un'immagine. Ad esempio, un utente ipovedente potrebbe caricare una foto di una dispensa e chiedere: "C'è una scatola di zuppa sullo scaffale in alto?". Il modello utilizza l'object detection per identificare gli oggetti e l'NLP per comprendere la richiesta, fornendo una risposta utile.
  • Veicoli Autonomi: Le auto a guida autonoma funzionano come agenti multi-modali in tempo reale. Combinano flussi visivi da telecamere, informazioni sulla profondità da LiDAR e dati di velocità da radar. Questa ridondanza assicura che, se un sensore è ostruito dal meteo, gli altri possano mantenere la sicurezza stradale.
  • Rilevamento Open-Vocabulary: Modelli come Ultralytics YOLO-World permettono agli utenti di rilevare oggetti utilizzando prompt testuali arbitrari invece di un elenco fisso di classi. Questo colma il divario tra i comandi linguistici e il riconoscimento visivo.

Link to this sectionEsempio: Rilevamento Open-Vocabulary#

Il seguente esempio dimostra come utilizzare la libreria ultralytics per eseguire il rilevamento open-vocabulary, dove il modello interpreta i prompt testuali per identificare oggetti in un'immagine:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionDistinzioni da termini correlati#

È utile differenziare il "Modello Multi-Modale" da concetti correlati nel glossario AI:

  • Apprendimento Multi-Modale: Questo si riferisce al processo e alle tecniche di machine learning (ML) utilizzate per addestrare questi sistemi. Il modello multi-modale è l'artefatto o il prodotto software risultante da quel processo di apprendimento.
  • Large Language Models (LLM): Gli LLM tradizionali elaborano solo testo. Sebbene molti si stiano evolvendo in Vision-Language Models (VLM), un LLM standard è unimodale.
  • Modelli di Fondazione: Questa è una categoria più ampia che descrive modelli su larga scala adattabili a molti compiti a valle. Sebbene un modello multi-modale sia spesso un modello di fondazione, non tutti i modelli di fondazione gestiscono molteplici modalità.

Link to this sectionIl futuro dell'AI multi-modale#

Il campo sta avanzando rapidamente verso sistemi in grado di elaborare flussi continui di audio, video e testo in tempo reale. La ricerca di organizzazioni come Google DeepMind continua a spingere i confini della percezione delle macchine. In Ultralytics, supportiamo questo ecosistema con backbone di visione ad alte prestazioni come YOLO26. Rilasciato nel 2026, YOLO26 offre velocità e precisione superiori per compiti come l'instance segmentation, fungendo da componente visivo efficiente in pipeline multi-modali più ampie. Gli sviluppatori possono gestire i dati, l'addestramento e il deployment di questi complessi flussi di lavoro utilizzando l'unificata Piattaforma Ultralytics.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning