Glossario

RAG multimodale

Esplora Multimodal RAG per elaborare testi, immagini e video. Scopri come Ultralytics migliora le pipeline di recupero AI per risposte più accurate e sensibili al contesto.

Il Multimodal Retrieval Augmented Generation (Multimodal RAG) è un avanzato framework di intelligenza artificiale (AI) che estende i tradizionali sistemi RAG per elaborare e ragionare su diversi tipi di dati, come testo, immagini, video e audio. Mentre il Retrieval Augmented Generation (RAG)standard migliora l'accuratezza di un Large Language Model (LLM) recuperando documenti testuali pertinenti, il Multimodal RAG consente ai modelli di "vedere" e "ascoltare" recuperando il contesto da una base di conoscenza multimediale. Questo approccio fonda la generazione del modello su prove visive o uditive concrete, riducendo significativamente le allucinazioni nei LLM e consentendo compiti complessi come la risposta a domande visive su set di dati privati. Sfruttando l' apprendimento multimodale, questi sistemi possono sintetizzare le informazioni dalla query di un utente (ad esempio, un testo) e dalle risorse recuperate (ad esempio, un diagramma o un fotogramma di sorveglianza) per produrre risposte complete e sensibili al contesto.

Come funziona il RAG multimodale

L'architettura di un sistema RAG multimodale rispecchia tipicamente la pipeline standard "Retrieve-then-Generate" (recupera e poi genera) ma la adatta ai dati non testuali. Questo processo si basa fortemente su database vettoriali e spazi semantici condivisi.

Indicizzazione: vengono elaborati dati provenienti da varie fonti, quali PDF, video e presentazioni. I modelli di estrazione delle caratteristiche convertono queste diverse modalità in vettori numerici ad alta dimensione noti come embedding. Ad esempio, un modello come CLIP di OpenAI allinea gli embedding di immagini e testo in modo che l'immagine di un cane e la parola "cane" siano matematicamente vicine.
Recupero: quando un utente pone una domanda (ad esempio, "Mostrami il difetto in questo circuito stampato"), il sistema esegue una ricerca semantica nel database vettoriale per trovare le immagini o i videoclip più pertinenti che corrispondono all'intento della query.
Generazione: il contesto visivo recuperato viene inserito in un modello visione-linguaggio (VLM). Il VLM elabora sia il prompt di testo dell'utente che le caratteristiche dell'immagine recuperata per generare una risposta finale, effettivamente "chattando" con i dati.

Applicazioni nel mondo reale

Il RAG multimodale sta trasformando i settori industriali consentendo agli agenti di intelligenza artificiale di interagire con il mondo fisico attraverso i dati visivi.

Manutenzione industriale e produzione: nell' ambito dell'intelligenza artificiale nella produzione, i tecnici possono interrogare un sistema con una foto di un pezzo di macchina rotto. Il sistema RAG multimodale recupera registri di manutenzione storici simili , schemi tecnici e tutorial video per guidare il processo di riparazione. Ciò riduce i tempi di inattività e democratizza le conoscenze specialistiche.
Scoperta nel settore retail ed e-commerce: le applicazioni che utilizzano l' intelligenza artificiale nel settore retail consentono ai clienti di caricare un'immagine di un outfit che gli piace. Il sistema recupera articoli visivamente simili dall'inventario attuale e genera consigli di stile o confronti tra prodotti, creando un'esperienza di acquisto altamente personalizzata.

Differenziare i termini correlati

Per comprendere la nicchia specifica del RAG multimodale, è utile distinguerlo dai concetti correlati:

RAG multimodale vs. Modello multimodale: Un modello multimodale (come GPT-4o o Gemini) crea la risposta. Il RAG multimodale è l'architettura che alimenta quel modello con dati esterni e privati (immagini, documenti) su cui non è stato addestrato. Il modello è il motore; il RAG è la linea di alimentazione.
RAG multimodale vs. Fine-Tuning: Il fine-tuning aggiorna in modo permanente i pesi del modello per apprendere un nuovo compito o stile. Il RAG fornisce conoscenze temporanee al momento dell'inferenza. Il RAG è preferibile per i dati dinamici (ad esempio, l'inventario giornaliero) dove un frequente retraining è poco pratico.

Implementazione con Ultralytics

Gli sviluppatori possono creare il componente di recupero di una pipeline RAG multimodale utilizzando Ultralytics YOLO. Rilevando e classificando gli oggetti all'interno delle immagini, YOLO metadati strutturati che possono essere indicizzati per il recupero basato sul testo o utilizzati per ritagliare le regioni dell'immagine rilevanti per un VLM. La Ultralytics semplifica l'addestramento di questi modelli di visione specializzati per riconoscere oggetti personalizzati cruciali per il vostro dominio specifico.

L'esempio seguente mostra come utilizzare YOLO26 per estrarre il contesto visivo (oggetti rilevati) da un'immagine, che potrebbe poi essere trasmesso a un LLM come parte di un flusso di lavoro RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Ulteriori letture e risorse

Documentazione LangChain: Una guida completa alla creazione di pipeline di recupero, compreso il supporto multimodale.
Guida multimodale LlamaIndex: Documentazione dettagliata sull'indicizzazione e il recupero di tipi di dati complessi per LLM.
Google Vertex AI Search: Funzionalità di ricerca vettoriale di livello aziendale per la creazione di applicazioni RAG scalabili.
Ultralytics : scopri come la visione artificiale si integra con sistemi di intelligenza artificiale più ampi in vari settori industriali.

RAG multimodale

Addestrare i modelliYOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori industriali

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Come funziona il RAG multimodale

Applicazioni nel mondo reale

Differenziare i termini correlati

Implementazione con Ultralytics

Ulteriori letture e risorse

Leggi di più in questa categoria

12 casi d'uso delle immagini aeree basati sulla visione artificiale

Che cos'è la stima della profondità monoculare? Una panoramica

Uno sguardo all'utilizzoYOLO Ultralytics per il rilevamento delle minacce tramite IA

Unitevi alla comunità di Ultralytics