Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Multimodal RAG

Esplora la RAG multimodale per elaborare testo, immagini e video. Scopri come Ultralytics YOLO26 migliora le pipeline di recupero IA per risposte più accurate e consapevoli del contesto.

La Multimodal Retrieval Augmented Generation (Multimodal RAG) è un framework avanzato di intelligenza artificiale (AI) che estende i sistemi RAG tradizionali per elaborare e ragionare su diversi tipi di dati, come testo, immagini, video e audio. Mentre la Retrieval Augmented Generation (RAG) standard migliora l'accuratezza di un Large Language Model (LLM) recuperando documenti testuali pertinenti, la Multimodal RAG consente ai modelli di "vedere" e "sentire" recuperando il contesto da una base di conoscenza multimediale. Questo approccio ancora la generazione del modello a prove visive o uditive concrete, riducendo significativamente le allucinazioni negli LLM e consentendo compiti complessi come la visual question answering su dataset privati. Sfruttando il multi-modal learning, questi sistemi possono sintetizzare le informazioni provenienti dalla query dell'utente (ad esempio, testo) e dalle risorse recuperate (ad esempio, un diagramma o un frame di sorveglianza) per produrre risposte complete e sensibili al contesto.

Link to this sectionCome funziona la Multimodal RAG#

L'architettura di un sistema Multimodal RAG rispecchia solitamente la pipeline standard "Retrieve-then-Generate" ma la adatta ai dati non testuali. Questo processo si basa pesantemente su vector databases e spazi semantici condivisi.

  1. Indicizzazione: Vengono elaborati dati provenienti da varie fonti: PDF, video, presentazioni. I modelli di feature extraction convertono queste diverse modalità in vettori numerici ad alta dimensione noti come embeddings. Ad esempio, un modello come OpenAI's CLIP allinea gli embeddings di immagini e testo in modo che la foto di un cane e la parola "cane" siano matematicamente vicine.

  2. Recupero: Quando un utente pone una domanda (ad esempio, "Mostrami il difetto in questo circuito stampato"), il sistema esegue una semantic search nel database vettoriale per trovare le immagini o i clip video più pertinenti che corrispondono all'intento della query.

  3. Generazione: Il contesto visivo recuperato viene fornito a un Vision-Language Model (VLM). Il VLM elabora sia il prompt testuale dell'utente che le caratteristiche dell'immagine recuperata per generare una risposta finale, "chattando" efficacemente con i dati.

Link to this sectionApplicazioni nel mondo reale#

La Multimodal RAG sta trasformando i settori consentendo agli AI agents di interagire con il mondo fisico attraverso i dati visivi.

  • Manutenzione industriale e produzione: Nell'AI in manufacturing, i tecnici possono interrogare un sistema con una foto di una parte di macchina rotta. Il sistema Multimodal RAG recupera log di manutenzione storici simili, schemi tecnici e video tutorial per guidare il processo di riparazione. Questo riduce i tempi di inattività e democratizza la conoscenza esperta.
  • Retail e E-Commerce Discovery: Le applicazioni che utilizzano l'AI in retail consentono ai clienti di caricare un'immagine di un outfit che apprezzano. Il sistema recupera articoli visivamente simili dall'inventario corrente e genera consigli di stile o confronti di prodotti, creando un'esperienza di acquisto altamente personalizzata.

Link to this sectionDifferenziazione dei termini correlati#

Per comprendere la nicchia specifica della Multimodal RAG, è utile distinguerla da concetti correlati:

  • Multimodal RAG vs. Multi-Modal Model: Un modello multimodale (come GPT-4o o Gemini) crea la risposta. La Multimodal RAG è l'architettura che fornisce a quel modello dati esterni e privati (immagini, documenti) su cui non è stato addestrato. Il modello è il motore; la RAG è il condotto del carburante.
  • Multimodal RAG vs. Fine-Tuning: Il fine-tuning aggiorna permanentemente i model weights per apprendere un nuovo compito o stile. La RAG fornisce conoscenza temporanea al momento dell'inferenza. La RAG è preferita per dati dinamici (ad esempio, l'inventario giornaliero) dove un frequente riaddestramento è impraticabile.

Link to this sectionImplementazione con Ultralytics#

Gli sviluppatori possono costruire il componente di recupero di una pipeline Multimodal RAG utilizzando Ultralytics YOLO. Rilevando e classificando gli oggetti all'interno delle immagini, YOLO fornisce metadati strutturati che possono essere indicizzati per il recupero basato su testo o utilizzati per ritagliare regioni di immagini pertinenti per un VLM. La Ultralytics Platform semplifica l'addestramento di questi modelli di visione specializzati per riconoscere oggetti personalizzati cruciali per il tuo dominio specifico.

Il seguente esempio mostra come utilizzare YOLO26 per estrarre il contesto visivo (oggetti rilevati) da un'immagine, che potrebbe poi essere passato a un LLM come parte di un flusso di lavoro RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionUlteriori letture e risorse#

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning