Glossaire

RAG multimodal

Découvrez Multimodal RAG pour traiter du texte, des images et des vidéos. Découvrez comment Ultralytics améliore les pipelines de recherche IA pour des réponses plus précises et adaptées au contexte.

La génération augmentée par recherche multimodale (Multimodal RAG) est un cadre d'intelligence artificielle (IA) avancé qui étend les systèmes RAG traditionnels afin de traiter et de raisonner à partir de divers types de données, telles que du texte, des images, des vidéos et des fichiers audio. Alors que la génération augmentée par recherche (RAG) améliore la précision d'un grand modèle linguistique (LLM) en récupérant des documents textuels pertinents, le RAG multimodal permet aux modèles de « voir » et « d'entendre » en récupérant le contexte à partir d'une base de connaissances multimédia. Cette approche fonde la génération du modèle sur des preuves visuelles ou auditives concrètes, ce qui réduit considérablement les hallucinations dans les LLM et permet des tâches complexes tâches complexes telles que la réponse à des questions visuelles sur des ensembles de données privés. En tirant parti de l' apprentissage multimodal, ces systèmes peuvent synthétiser les informations provenant de la requête d'un utilisateur (par exemple, du texte) et des ressources récupérées (par exemple, un diagramme ou une image de surveillance) afin de produire des réponses complètes et adaptées au contexte.

Comment fonctionne le RAG multimodal

L'architecture d'un système RAG multimodal reflète généralement le pipeline standard « récupérer puis générer » , mais l'adapte aux données non textuelles. Ce processus s'appuie fortement sur les bases de données vectorielles et les espaces sémantiques partagés.

Indexation : les données provenant de diverses sources (PDF, vidéos, présentations PowerPoint) sont traitées. Les modèles d'extraction de caractéristiques convertissent ces différentes modalités en vecteurs numériques à haute dimension appelés « embeddings ». Par exemple, un modèle tel que CLIP d'OpenAI aligne les embeddings d'images et de textes afin qu'une image représentant un chien et le mot « chien » soient mathématiquement proches.
Récupération : lorsqu'un utilisateur pose une question (par exemple, « Montrez-moi le défaut dans ce circuit imprimé »), le système effectue une recherche sémantique dans la base de données vectorielle afin de trouver les images ou les clips vidéo les plus pertinents qui correspondent à l'intention de la requête.
Génération : le contexte visuel récupéré est intégré dans un modèle de langage visuel (VLM). Le VLM traite à la fois la requête textuelle de l'utilisateur et les caractéristiques de l'image récupérée pour générer une réponse finale, « discutant » ainsi efficacement avec les données.

Applications concrètes

Le RAG multimodal transforme les industries en permettant aux agents IA d'interagir avec le monde physique par le biais de données visuelles.

Maintenance industrielle et fabrication : dans le domaine de l' IA appliquée à la fabrication, les techniciens peuvent interroger un système à l'aide d'une photo d'une pièce de machine cassée. Le système RAG multimodal récupère des journaux de maintenance historiques similaires, des schémas techniques et des tutoriels vidéo pour guider le processus de réparation. Cela réduit les temps d'arrêt et démocratise les connaissances spécialisées.
Découverte dans le commerce de détail et le commerce électronique : les applications utilisant l' IA dans le commerce de détail permettent aux clients de télécharger une image d'une tenue qui leur plaît. Le système recherche des articles visuellement similaires dans le stock actuel et génère des conseils de style ou des comparaisons de produits, créant ainsi une expérience d'achat hautement personnalisée.

Différencier les termes apparentés

Pour comprendre le créneau spécifique du RAG multimodal, il est utile de le distinguer des concepts connexes :

RAG multimodal vs. Modèle multimodal: Un modèle multimodal (comme GPT-4o ou Gemini) génère la réponse. Le RAG multimodal est l'architecture qui alimente ce modèle avec des données externes privées (images, documents) sur lesquelles il n'a pas été formé. Le modèle est le moteur ; le RAG est la ligne d'alimentation en carburant.
RAG multimodal vs ajustement fin: L'ajustement fin met à jour en permanence les poids du modèle afin d' apprendre une nouvelle tâche ou un nouveau style. Le RAG fournit des connaissances temporaires au moment de l'inférence. Le RAG est préférable pour les données dynamiques (par exemple, les stocks quotidiens) où un réentraînement fréquent n'est pas pratique.

Mise en œuvre avec Ultralytics

Les développeurs peuvent créer le composant de récupération d'un pipeline RAG multimodal à l'aide de Ultralytics YOLO. En détectant et en classifiant les objets dans les images, YOLO des métadonnées structurées qui peuvent être indexées pour une recherche textuelle ou utilisées pour recadrer les zones pertinentes de l'image pour un VLM. La Ultralytics simplifie l'entraînement de ces modèles de vision spécialisés afin qu'ils reconnaissent les objets personnalisés essentiels à votre domaine spécifique.

L'exemple suivant montre comment utiliser YOLO26 pour extraire le contexte visuel (objets détectés) d'une image, qui pourrait ensuite être transmis à un LLM dans le cadre d'un workflow RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Autres lectures et ressources

Documentation LangChain: Guide complet pour la création de pipelines de recherche, incluant la prise en charge multimodale.
Guide multimodal LlamaIndex: Documentation détaillée sur l'indexation et la récupération de types de données complexes pour les LLM.
Google Vertex AI Search: Fonctionnalités de recherche vectorielle de niveau entreprise pour créer des applications RAG évolutives.
Ultralytics : Découvrez comment la vision par ordinateur s'intègre à des systèmes d'IA plus larges dans divers secteurs.

RAG multimodal

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne le RAG multimodal

Applications concrètes

Différencier les termes apparentés

Mise en œuvre avec Ultralytics

Autres lectures et ressources

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics