RAG multimodale
Esplora Multimodal RAG per elaborare testi, immagini e video. Scopri come Ultralytics migliora le pipeline di recupero AI per risposte più accurate e sensibili al contesto.
Il Multimodal Retrieval Augmented Generation (Multimodal RAG) è un avanzato
framework di intelligenza artificiale (AI)
che estende i tradizionali sistemi RAG per elaborare e ragionare su diversi tipi di dati, come testo, immagini, video e
audio. Mentre il
Retrieval Augmented Generation (RAG)standard
migliora l'accuratezza di un
Large Language Model (LLM) recuperando
documenti testuali pertinenti, il Multimodal RAG consente ai modelli di "vedere" e "ascoltare" recuperando
il contesto da una base di conoscenza multimediale. Questo approccio fonda la generazione del modello su prove visive o uditive concrete,
riducendo significativamente le
allucinazioni nei LLM e consentendo compiti complessi
come la risposta a domande visive su set di dati privati. Sfruttando l'
apprendimento multimodale, questi sistemi possono
sintetizzare le informazioni dalla query di un utente (ad esempio, un testo) e dalle risorse recuperate (ad esempio, un diagramma o un fotogramma di sorveglianza)
per produrre risposte complete e sensibili al contesto.
Come funziona il RAG multimodale
L'architettura di un sistema RAG multimodale rispecchia tipicamente la pipeline standard "Retrieve-then-Generate" (recupera e poi genera)
ma la adatta ai dati non testuali. Questo processo si basa fortemente su
database vettoriali e spazi semantici condivisi.
-
Indicizzazione: vengono elaborati dati provenienti da varie fonti, quali PDF, video e presentazioni.
I modelli di estrazione delle caratteristiche convertono queste
diverse modalità in vettori numerici ad alta dimensione noti come
embedding. Ad esempio, un modello come
CLIP di OpenAI allinea gli embedding di immagini e testo in modo che l'immagine di un
cane e la parola "cane" siano matematicamente vicine.
-
Recupero: quando un utente pone una domanda (ad esempio, "Mostrami il difetto in questo circuito
stampato"), il sistema esegue una
ricerca semantica nel database vettoriale per
trovare le immagini o i videoclip più pertinenti che corrispondono all'intento della query.
-
Generazione: il contesto visivo recuperato viene inserito in un
modello visione-linguaggio (VLM). Il VLM elabora sia il prompt di testo dell'utente che le caratteristiche dell'immagine recuperata per generare una risposta finale,
effettivamente "chattando" con i dati.
Applicazioni nel mondo reale
Il RAG multimodale sta trasformando i settori industriali consentendo agli
agenti di intelligenza artificiale di interagire con il mondo fisico attraverso i
dati visivi.
-
Manutenzione industriale e produzione: nell'
ambito dell'intelligenza artificiale nella produzione, i tecnici possono interrogare un
sistema con una foto di un pezzo di macchina rotto. Il sistema RAG multimodale recupera registri di manutenzione storici simili
, schemi tecnici e tutorial video per guidare il processo di riparazione. Ciò riduce i tempi di inattività e democratizza le
conoscenze specialistiche.
-
Scoperta nel settore retail ed e-commerce: le applicazioni che utilizzano l'
intelligenza artificiale nel settore retail consentono ai clienti di caricare un'immagine di un
outfit che gli piace. Il sistema recupera articoli visivamente simili dall'inventario attuale e genera consigli di stile
o confronti tra prodotti, creando un'esperienza di acquisto altamente personalizzata.
Differenziare i termini correlati
Per comprendere la nicchia specifica del RAG multimodale, è utile distinguerlo dai concetti correlati:
-
RAG multimodale vs.
Modello multimodale:
Un modello multimodale (come GPT-4o o Gemini) crea la risposta. Il RAG multimodale è l'architettura che
alimenta quel modello con dati esterni e privati (immagini, documenti) su cui non è stato addestrato. Il modello è il motore; il RAG è la
linea di alimentazione.
-
RAG multimodale vs. Fine-Tuning:
Il fine-tuning aggiorna in modo permanente i pesi del modello per
apprendere un nuovo compito o stile. Il RAG fornisce conoscenze temporanee al momento dell'inferenza. Il RAG è preferibile per i dati dinamici
(ad esempio, l'inventario giornaliero) dove un frequente retraining è poco pratico.
Implementazione con Ultralytics
Gli sviluppatori possono creare il componente di recupero di una pipeline RAG multimodale utilizzando
Ultralytics YOLO. Rilevando e classificando gli oggetti all'interno delle immagini,
YOLO metadati strutturati che possono essere indicizzati per il recupero basato sul testo o utilizzati per ritagliare le regioni dell'immagine rilevanti
per un VLM. La Ultralytics semplifica l'addestramento di questi
modelli di visione specializzati per riconoscere oggetti personalizzati cruciali per il vostro dominio specifico.
L'esempio seguente mostra come utilizzare YOLO26 per estrarre
il contesto visivo (oggetti rilevati) da un'immagine, che potrebbe poi essere trasmesso a un LLM come parte di un flusso di lavoro RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person
Ulteriori letture e risorse
-
Documentazione LangChain:
Una guida completa alla creazione di pipeline di recupero, compreso il supporto multimodale.
-
Guida multimodale LlamaIndex:
Documentazione dettagliata sull'indicizzazione e il recupero di tipi di dati complessi per LLM.
-
Google Vertex AI Search:
Funzionalità di ricerca vettoriale di livello aziendale per la creazione di applicazioni RAG scalabili.
-
Ultralytics : scopri come la visione artificiale
si integra con sistemi di intelligenza artificiale più ampi in vari settori industriali.