Découvrez Multimodal RAG pour traiter du texte, des images et des vidéos. Découvrez comment Ultralytics améliore les pipelines de recherche IA pour des réponses plus précises et adaptées au contexte.
La génération augmentée par recherche multimodale (Multimodal RAG) est un cadre d'intelligence artificielle (IA) avancé qui étend les systèmes RAG traditionnels afin de traiter et de raisonner à partir de divers types de données, telles que du texte, des images, des vidéos et des fichiers audio. Alors que la génération augmentée par recherche (RAG) améliore la précision d'un grand modèle linguistique (LLM) en récupérant des documents textuels pertinents, le RAG multimodal permet aux modèles de « voir » et « d'entendre » en récupérant le contexte à partir d'une base de connaissances multimédia. Cette approche fonde la génération du modèle sur des preuves visuelles ou auditives concrètes, ce qui réduit considérablement les hallucinations dans les LLM et permet des tâches complexes tâches complexes telles que la réponse à des questions visuelles sur des ensembles de données privés. En tirant parti de l' apprentissage multimodal, ces systèmes peuvent synthétiser les informations provenant de la requête d'un utilisateur (par exemple, du texte) et des ressources récupérées (par exemple, un diagramme ou une image de surveillance) afin de produire des réponses complètes et adaptées au contexte.
L'architecture d'un système RAG multimodal reflète généralement le pipeline standard « récupérer puis générer » , mais l'adapte aux données non textuelles. Ce processus s'appuie fortement sur les bases de données vectorielles et les espaces sémantiques partagés.
Le RAG multimodal transforme les industries en permettant aux agents IA d'interagir avec le monde physique par le biais de données visuelles.
Pour comprendre le créneau spécifique du RAG multimodal, il est utile de le distinguer des concepts connexes :
Les développeurs peuvent créer le composant de récupération d'un pipeline RAG multimodal à l'aide de Ultralytics YOLO. En détectant et en classifiant les objets dans les images, YOLO des métadonnées structurées qui peuvent être indexées pour une recherche textuelle ou utilisées pour recadrer les zones pertinentes de l'image pour un VLM. La Ultralytics simplifie l'entraînement de ces modèles de vision spécialisés afin qu'ils reconnaissent les objets personnalisés essentiels à votre domaine spécifique.
L'exemple suivant montre comment utiliser YOLO26 pour extraire le contexte visuel (objets détectés) d'une image, qui pourrait ensuite être transmis à un LLM dans le cadre d'un workflow RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person
Commencez votre parcours avec l'avenir de l'apprentissage automatique