Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Multimodal AI

Esplora l'IA multimodale e come integra testo e visione per una comprensione basata sul contesto. Impara a utilizzare Ultralytics YOLO26 e i modelli a vocabolario aperto oggi stesso.

L'AI multimodale si riferisce a una classe sofisticata di sistemi di intelligenza artificiale (AI) progettati per elaborare, interpretare e sintetizzare simultaneamente informazioni provenienti da diverse tipologie di dati, o "modalità". A differenza dei sistemi unimodali tradizionali che si specializzano in un'unica fonte di input, come la Natural Language Processing (NLP) per il testo o la Computer Vision (CV) per le immagini, l'AI multimodale imita la percezione umana integrando diversi flussi di dati. Questa integrazione può includere la combinazione di dati visivi (immagini, video) con dati linguistici (testo, audio parlato) e informazioni sensoriali (LiDAR, radar, termica). Sfruttando questi input combinati, questi modelli raggiungono una comprensione più profonda e consapevole del contesto di scenari complessi del mondo reale, avvicinandosi alle ampie capacità dell'Artificial General Intelligence (AGI).

Link to this sectionCome funzionano i sistemi multimodali#

Il punto di forza dell'AI multimodale risiede nella sua capacità di mappare diversi tipi di dati in uno spazio matematico condiviso dove possono essere confrontati e combinati. Questo processo coinvolge solitamente tre fasi chiave: codifica, allineamento e fusione.

  1. Estrazione delle caratteristiche: Reti neurali specializzate elaborano ogni modalità in modo indipendente per identificare modelli chiave. Ad esempio, una Convolutional Neural Network (CNN) potrebbe estrarre caratteristiche visive da una fotografia, mentre un Transformer elabora la didascalia di accompagnamento.

  2. Allineamento e Embedding: Le caratteristiche estratte vengono convertite in vettori numerici ad alta dimensionalità. Il modello impara ad allineare questi vettori in modo che concetti semanticamente simili (ad es. l'immagine di un gatto e la parola testuale "gatto") si trovino vicini l'uno all'altro nello spazio vettoriale. Questo viene spesso ottenuto tramite tecniche come il contrastive learning, un metodo famoso utilizzato in modelli come OpenAI's CLIP.

  3. Fusione dei dati: Il sistema unisce i dati allineati utilizzando avanzate tecniche di fusione. Le architetture moderne utilizzano meccanismi di attenzione per pesare dinamicamente l'importanza di una modalità rispetto a un'altra in base al contesto, consentendo al modello di concentrarsi sul testo quando l'immagine è ambigua, o viceversa.

Link to this sectionApplicazioni nel mondo reale#

L'AI multimodale ha sbloccato capacità precedentemente impossibili con i sistemi a modalità singola, guidando l'innovazione in diversi settori.

  • Visual Question Answering (VQA): In questa applicazione, puoi presentare un'immagine a un'AI e porre domande in linguaggio naturale al riguardo. Ad esempio, un utente ipovedente potrebbe caricare una foto di una dispensa e chiedere: "È rimasta della pasta?". Il modello elabora il contenuto visivo e la query testuale per fornire una risposta specifica.
  • Veicoli autonomi: Le auto a guida autonoma si affidano pesantemente a input multimodali, combinando dati da telecamere, nuvole di punti LiDAR e radar per navigare in sicurezza. Questa ridondanza assicura che, se un sensore dovesse fallire (ad esempio una telecamera accecata dall'abbagliamento del sole), gli altri possano mantenere gli standard di sicurezza definiti dalla Society of Automotive Engineers (SAE).
  • Diagnostica sanitaria: I sistemi avanzati di AI medica analizzano l'analisi delle immagini mediche (come risonanze magnetiche o raggi X) insieme alla storia clinica testuale non strutturata e ai dati genetici. Questa visione completa aiuta i medici a formulare diagnosi più accurate, un argomento discusso frequentemente in Nature Digital Medicine.
  • IA generativa: Gli strumenti che creano immagini da prompt testuali, come Stable Diffusion, si basano interamente sulla capacità del modello di comprendere la relazione tra descrizioni linguistiche e texture visive.

Link to this sectionRilevamento a vocabolario aperto con Ultralytics#

Mentre i rilevatori di oggetti standard si basano su elenchi predefiniti di categorie, gli approcci multimodali come YOLO-World ti consentono di rilevare oggetti utilizzando prompt testuali a vocabolario aperto. Questo colma il divario tra comandi linguistici e riconoscimento visivo all'interno dell'ecosistema Ultralytics.

Il seguente esempio dimostra come utilizzare la libreria ultralytics per eseguire il rilevamento a vocabolario aperto, dove il modello rileva oggetti basandosi su input testuali personalizzati:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionDistinguere termini correlati#

Per navigare nel panorama del moderno machine learning, è utile distinguere l'"AI multimodale" da concetti correlati:

  • Multi-Modal Learning: Questo si riferisce alla disciplina accademica e alla metodologia di addestramento degli algoritmi su tipi di dati misti. L'"AI multimodale" si riferisce generalmente all'applicazione pratica o al sistema risultante.
  • Large Language Models (LLMs): I tradizionali LLM sono unimodali, addestrati esclusivamente su dati testuali. Tuttavia, il settore si sta spostando verso i "Large Multimodal Models" (LMM) che possono elaborare nativamente immagini e testo, una tendenza supportata da framework come PyTorch e TensorFlow.
  • Modelli di visione specializzati: Modelli come l'all'avanguardia Ultralytics YOLO26 sono esperti altamente specializzati in attività visive. Mentre un modello multimodale generale potrebbe descrivere una scena in termini ampi, i modelli specializzati eccellono nel rilevamento di oggetti preciso e ad alta velocità e nell'elaborazione in tempo reale su hardware edge.

Link to this sectionProspettive future#

La traiettoria dell'AI multimodale punta verso sistemi che possiedono maggiori capacità di ragionamento. Fondando con successo il linguaggio nella realtà visiva e fisica, questi modelli stanno andando oltre la correlazione statistica verso una comprensione genuina. La ricerca di istituzioni come Google DeepMind e lo Stanford Center for Research on Foundation Models continua a spingere i confini del modo in cui le macchine percepiscono ambienti complessi.

In Ultralytics, integriamo questi progressi nella Ultralytics Platform, consentendoti di gestire dati, addestrare modelli e distribuire soluzioni che sfruttano l'intero spettro delle modalità disponibili, combinando la velocità di YOLO26 con la versatilità degli input multimodali.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning