Explore how multi-modal models integrate text and vision to mimic human perception. Learn about architectures like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and the [Ultralytics Platform](https://platform.ultralytics.com).
Un modello multimodale è un tipo avanzato di sistema di intelligenza artificiale (AI) in grado di elaborare, interpretare e integrare simultaneamente informazioni provenienti da diversi tipi di dati, o "modalità". Mentre i sistemi unimodali tradizionali sono specializzati in un unico dominio, come l' elaborazione del linguaggio naturale (NLP) per il testo o la visione artificiale (CV) per le immagini, i modelli multimodali mirano a imitare la percezione umana sintetizzando insieme segnali visivi, uditivi e linguistici . Questa convergenza consente al modello di sviluppare una comprensione completa del mondo, permettendogli di tracciare correlazioni complesse tra una scena visiva e una descrizione verbale. Queste capacità sono considerate passi fondamentali verso il raggiungimento dell' intelligenza artificiale generale (AGI).
L'efficacia di un modello multimodale dipende dalla sua capacità di mappare diversi tipi di dati in uno spazio semantico condiviso. Questo processo inizia in genere con la creazione di incorporamenti, ovvero rappresentazioni numeriche che catturano il significato essenziale dei dati di input. Attraverso l'addestramento su enormi set di dati di esempi accoppiati, come video con sottotitoli, il modello impara ad allineare la rappresentazione vettoriale di un'immagine di "gatto" con l'embedding testuale della parola "gatto".
Diversi concetti architettonici chiave rendono possibile questa integrazione:
I modelli multimodali hanno sbloccato funzionalità che prima erano impossibili da ottenere con i sistemi monomodali.
L'esempio seguente mostra come utilizzare l'opzione ultralytics libreria per eseguire il rilevamento a vocabolario aperto,
in cui il modello interpreta i prompt di testo per identificare gli oggetti in un'immagine:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
È utile distinguere il "modello multimodale" dai concetti correlati presenti nel glossario dell'IA:
Il settore sta avanzando rapidamente verso sistemi in grado di elaborare flussi continui di audio, video e testo in tempo reale. La ricerca di organizzazioni come Google continua a spingere i confini della percezione artificiale. Noi di Ultralytics supportiamo questo ecosistema con backbone di visione ad alte prestazioni come YOLO26. Rilasciato nel 2026, YOLO26 offre velocità e precisione superiori per attività come la segmentazione delle istanze, fungendo da componente visivo efficiente in pipeline multimodali più grandi. Gli sviluppatori possono gestire i dati, la formazione e l'implementazione di questi flussi di lavoro complessi utilizzando la Ultralytics unificata Ultralytics .