Esplora Multimodal RAG per elaborare testi, immagini e video. Scopri come Ultralytics migliora le pipeline di recupero AI per risposte più accurate e sensibili al contesto.
Il Multimodal Retrieval Augmented Generation (Multimodal RAG) è un avanzato framework di intelligenza artificiale (AI) che estende i tradizionali sistemi RAG per elaborare e ragionare su diversi tipi di dati, come testo, immagini, video e audio. Mentre il Retrieval Augmented Generation (RAG)standard migliora l'accuratezza di un Large Language Model (LLM) recuperando documenti testuali pertinenti, il Multimodal RAG consente ai modelli di "vedere" e "ascoltare" recuperando il contesto da una base di conoscenza multimediale. Questo approccio fonda la generazione del modello su prove visive o uditive concrete, riducendo significativamente le allucinazioni nei LLM e consentendo compiti complessi come la risposta a domande visive su set di dati privati. Sfruttando l' apprendimento multimodale, questi sistemi possono sintetizzare le informazioni dalla query di un utente (ad esempio, un testo) e dalle risorse recuperate (ad esempio, un diagramma o un fotogramma di sorveglianza) per produrre risposte complete e sensibili al contesto.
L'architettura di un sistema RAG multimodale rispecchia tipicamente la pipeline standard "Retrieve-then-Generate" (recupera e poi genera) ma la adatta ai dati non testuali. Questo processo si basa fortemente su database vettoriali e spazi semantici condivisi.
Il RAG multimodale sta trasformando i settori industriali consentendo agli agenti di intelligenza artificiale di interagire con il mondo fisico attraverso i dati visivi.
Per comprendere la nicchia specifica del RAG multimodale, è utile distinguerlo dai concetti correlati:
Gli sviluppatori possono creare il componente di recupero di una pipeline RAG multimodale utilizzando Ultralytics YOLO. Rilevando e classificando gli oggetti all'interno delle immagini, YOLO metadati strutturati che possono essere indicizzati per il recupero basato sul testo o utilizzati per ritagliare le regioni dell'immagine rilevanti per un VLM. La Ultralytics semplifica l'addestramento di questi modelli di visione specializzati per riconoscere oggetti personalizzati cruciali per il vostro dominio specifico.
L'esempio seguente mostra come utilizzare YOLO26 per estrarre il contesto visivo (oggetti rilevati) da un'immagine, che potrebbe poi essere trasmesso a un LLM come parte di un flusso di lavoro RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person
Inizia il tuo viaggio con il futuro del machine learning