Scopri come i modelli di IA multimodali integrano testo, immagini e altro ancora per creare sistemi robusti e versatili per applicazioni nel mondo reale.
Un modello multimodale è un sistema avanzato di intelligenza artificiale (AI) avanzato in grado di elaborare, interpretare e integrare informazioni provenienti da più tipi di dati, o "modalità", contemporaneamente. "modalità", simultaneamente. A differenza dei tradizionali sistemi unimodali che si specializzano in un singolo dominio, come ad esempio l'elaborazione del linguaggio naturale (NLP). l'elaborazione del linguaggio naturale (NLP) per il testo o la Computer Vision (CV) per le immagini, i modelli multimodali possono analizzare insieme testo, immagini, audio, video e dati dei sensori. Questa convergenza consente al di sviluppare una comprensione del mondo più completa e simile a quella umana, in quanto è in grado di stabilire correlazioni tra gli indizi visivi e le descrizioni linguistiche. tra spunti visivi e descrizioni linguistiche. Questa capacità è fondamentale per lo sviluppo della futura Intelligenza Artificiale Generale (AGI) e sta attualmente guidando l'innovazione in campi che vanno dalla robotica alla creazione automatica di contenuti.
L'efficacia dei modelli multimodali si basa sulla loro capacità di mappare diversi tipi di dati in uno spazio semantico condiviso. spazio semantico condiviso. Questo processo inizia tipicamente con la generazione di rappresentazioni numerichedei dati che ne che ne catturano il significato essenziale. Allenandosi su serie massicce di esempi accoppiati, come le immagini con le didascalie, il modello impara ad allineare gli embeddings. di immagini con didascalie, il modello impara ad allineare l'embedding di un'immagine di un "cane" con l'embedding del testo della parola "cane". "cane".
Le principali innovazioni architettoniche rendono possibile questa integrazione:
I modelli multimodali hanno sbloccato nuove funzionalità che in precedenza erano impossibili con i sistemi monomodali.
L'esempio seguente mostra come utilizzare l'opzione ultralytics per eseguire il rilevamento del vocabolario aperto
in cui il modello rileva gli oggetti sulla base di input testuali personalizzati:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
È importante distinguere il "Modello multimodale" dai concetti correlati nel glossario dell'IA:
Il campo sta rapidamente avanzando verso modelli in grado di elaborare flussi continui di audio, video e testo in tempo reale. in tempo reale. Le ricerche condotte da organizzazioni come Google DeepMind continuano a spingere i confini di ciò che questi sistemi possono percepire. In Ultralytics, mentre il nostro fiore all'occhiello YOLO11 modelli di punta YOLO11 stabiliscono lo standard per la velocità e l'accuratezza nel rilevamento degli oggetti, stiamo anche innovando con architetture come YOLO26, che miglioreranno ulteriormente l'efficienza l'efficienza delle applicazioni edge e cloud. In prospettiva, la piattaforma completa Ultralytics Platform fornirà un ambiente unificato per la gestione dei dati, formazione e distribuzione per questi flussi di lavoro AI sempre più complessi.