Multimodal RAG
Explore le RAG multimodal pour traiter le texte, les images et la vidéo. Apprends comment Ultralytics YOLO26 améliore les pipelines de récupération IA pour des réponses plus précises et contextuelles.
Le Multimodal Retrieval Augmented Generation (RAG multimodal) est un framework d'intelligence artificielle (IA) avancé qui étend les systèmes RAG traditionnels pour traiter et raisonner sur divers types de données, comme le texte, les images, la vidéo et l'audio. Alors que le Retrieval Augmented Generation (RAG) standard améliore la précision d'un Large Language Model (LLM) en récupérant des documents textuels pertinents, le RAG multimodal permet aux modèles de « voir » et d'« entendre » en extrayant du contexte à partir d'une base de connaissances multimédia. Cette approche ancre la génération du modèle dans des preuves visuelles ou auditives concrètes, réduisant considérablement les hallucinations dans les LLM et permettant des tâches complexes comme la réponse à des questions visuelles sur des jeux de données privés. En tirant parti de l'apprentissage multimodal, ces systèmes peuvent synthétiser les informations provenant de la requête d'un utilisateur (ex: texte) et des ressources récupérées (ex: un diagramme ou une image de surveillance) pour produire des réponses complètes et adaptées au contexte.
Link to this sectionComment fonctionne le RAG multimodal#
L'architecture d'un système de RAG multimodal reflète généralement le pipeline standard « Récupérer-puis-Générer » mais l'adapte aux données non textuelles. Ce processus repose largement sur les bases de données vectorielles et les espaces sémantiques partagés.
-
Indexation : Les données provenant de diverses sources — PDF, vidéos, présentations — sont traitées. Des modèles d'extraction de caractéristiques convertissent ces différentes modalités en vecteurs numériques de haute dimension connus sous le nom d'embeddings. Par exemple, un modèle comme CLIP d'OpenAI aligne les embeddings d'image et de texte afin qu'une photo d'un chien et le mot « chien » soient mathématiquement proches.
-
Récupération : Lorsqu'un utilisateur pose une question (ex: « Montre-moi le défaut sur cette carte électronique »), le système effectue une recherche sémantique dans la base de données vectorielle pour trouver les images ou clips vidéo les plus pertinents qui correspondent à l'intention de la requête.
-
Génération : Le contexte visuel récupéré est transmis à un Vision-Language Model (VLM). Le VLM traite à la fois le prompt textuel de l'utilisateur et les caractéristiques de l'image récupérée pour générer une réponse finale, « discutant » efficacement avec les données.
Link to this sectionApplications concrètes#
Le RAG multimodal transforme les industries en permettant aux agents IA d'interagir avec le monde physique à travers des données visuelles.
- Maintenance industrielle et fabrication : Dans le domaine de l'IA dans la fabrication, les techniciens peuvent interroger un système avec une photo d'une pièce de machine cassée. Le système de RAG multimodal récupère des journaux de maintenance historiques similaires, des schémas techniques et des tutoriels vidéo pour guider le processus de réparation. Cela réduit les temps d'arrêt et démocratise l'expertise.
- Découverte dans la vente au détail et le commerce électronique : Les applications utilisant l'IA dans la vente au détail permettent aux clients de télécharger une image d'une tenue qu'ils aiment. Le système récupère des articles visuellement similaires de l'inventaire actuel et génère des conseils de style ou des comparaisons de produits, créant une expérience d'achat hautement personnalisée.
Link to this sectionDifférencier les termes associés#
Pour comprendre la niche spécifique du RAG multimodal, il est utile de le distinguer des concepts associés :
- RAG multimodal vs Modèle multimodal : Un modèle multimodal (comme GPT-4o ou Gemini) crée la réponse. Le RAG multimodal est l'architecture qui alimente ce modèle avec des données externes et privées (images, documents) sur lesquelles il n'a pas été entraîné. Le modèle est le moteur ; le RAG est la conduite de carburant.
- RAG multimodal vs Fine-tuning : Le fine-tuning met à jour de façon permanente les poids du modèle pour apprendre une nouvelle tâche ou un nouveau style. Le RAG fournit des connaissances temporaires au moment de l'inférence. Le RAG est préféré pour les données dynamiques (ex: inventaire quotidien) où un réentraînement fréquent est peu pratique.
Link to this sectionImplémentation avec Ultralytics#
Les développeurs peuvent construire le composant de récupération d'un pipeline de RAG multimodal en utilisant Ultralytics YOLO. En détectant et en classant des objets dans des images, YOLO fournit des métadonnées structurées qui peuvent être indexées pour une recherche basée sur le texte ou utilisées pour recadrer des régions d'image pertinentes pour un VLM. La plateforme Ultralytics simplifie l'entraînement de ces modèles de vision spécialisés pour reconnaître des objets personnalisés cruciaux pour ton domaine spécifique.
L'exemple suivant montre comment utiliser YOLO26 pour extraire un contexte visuel (objets détectés) à partir d'une image, qui pourrait ensuite être transmis à un LLM dans le cadre d'un flux de travail RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, personLink to this sectionLectures complémentaires et ressources#
- Documentation LangChain : Un guide complet pour construire des pipelines de récupération, incluant le support multimodal.
- Guide multimodal LlamaIndex : Documentation détaillée sur l'indexation et la récupération de types de données complexes pour les LLM.
- Google Cloud Vertex AI Search : Capacités de recherche vectorielle de niveau entreprise pour construire des applications RAG évolutives.
- Solutions Ultralytics : Découvre comment la vision par ordinateur s'intègre aux systèmes d'IA plus larges à travers diverses industries.






