RAG multimodal
Découvrez Multimodal RAG pour traiter du texte, des images et des vidéos. Découvrez comment Ultralytics améliore les pipelines de recherche IA pour des réponses plus précises et adaptées au contexte.
La génération augmentée par recherche multimodale (Multimodal RAG) est un
cadre d'intelligence artificielle (IA) avancé
qui étend les systèmes RAG traditionnels afin de traiter et de raisonner à partir de divers types de données, telles que du texte, des images, des vidéos et
des fichiers audio. Alors que la
génération augmentée par recherche (RAG)
améliore la précision d'un
grand modèle linguistique (LLM) en récupérant des
documents textuels pertinents, le RAG multimodal permet aux modèles de « voir » et « d'entendre » en récupérant le
contexte à partir d'une base de connaissances multimédia. Cette approche fonde la génération du modèle sur des preuves visuelles ou auditives concrètes,
ce qui réduit considérablement les
hallucinations dans les LLM et permet des tâches complexes
tâches complexes telles que la réponse à des questions visuelles sur des ensembles de données privés. En tirant parti de l'
apprentissage multimodal, ces systèmes peuvent
synthétiser les informations provenant de la requête d'un utilisateur (par exemple, du texte) et des ressources récupérées (par exemple, un diagramme ou une image de surveillance)
afin de produire des réponses complètes et adaptées au contexte.
Comment fonctionne le RAG multimodal
L'architecture d'un système RAG multimodal reflète généralement le pipeline standard « récupérer puis générer »
, mais l'adapte aux données non textuelles. Ce processus s'appuie fortement sur les
bases de données vectorielles et les espaces sémantiques partagés.
-
Indexation : les données provenant de diverses sources (PDF, vidéos, présentations PowerPoint) sont traitées.
Les modèles d'extraction de caractéristiques convertissent ces
différentes modalités en vecteurs numériques à haute dimension appelés
« embeddings ». Par exemple, un modèle tel que
CLIP d'OpenAI aligne les embeddings d'images et de textes afin qu'une image représentant un
chien et le mot « chien » soient mathématiquement proches.
-
Récupération : lorsqu'un utilisateur pose une question (par exemple, « Montrez-moi le défaut dans ce circuit
imprimé »), le système effectue une
recherche sémantique dans la base de données vectorielle afin de
trouver les images ou les clips vidéo les plus pertinents qui correspondent à l'intention de la requête.
-
Génération : le contexte visuel récupéré est intégré dans un
modèle de langage visuel (VLM). Le VLM traite à la fois la requête textuelle de l'utilisateur et les caractéristiques de l'image récupérée pour générer une réponse finale,
« discutant » ainsi efficacement avec les données.
Applications concrètes
Le RAG multimodal transforme les industries en permettant aux
agents IA d'interagir avec le monde physique par le biais de
données visuelles.
-
Maintenance industrielle et fabrication : dans le domaine de l'
IA appliquée à la fabrication, les techniciens peuvent interroger un
système à l'aide d'une photo d'une pièce de machine cassée. Le système RAG multimodal récupère des journaux de maintenance historiques similaires,
des schémas techniques et des tutoriels vidéo pour guider le processus de réparation. Cela réduit les temps d'arrêt et démocratise les
connaissances spécialisées.
-
Découverte dans le commerce de détail et le commerce électronique : les applications utilisant l'
IA dans le commerce de détail permettent aux clients de télécharger une image d'une
tenue qui leur plaît. Le système recherche des articles visuellement similaires dans le stock actuel et génère des conseils de style
ou des comparaisons de produits, créant ainsi une expérience d'achat hautement personnalisée.
Différencier les termes apparentés
Pour comprendre le créneau spécifique du RAG multimodal, il est utile de le distinguer des concepts connexes :
-
RAG multimodal vs.
Modèle multimodal:
Un modèle multimodal (comme GPT-4o ou Gemini) génère la réponse. Le RAG multimodal est l'architecture qui
alimente ce modèle avec des données externes privées (images, documents) sur lesquelles il n'a pas été formé. Le modèle est le moteur ; le RAG est la
ligne d'alimentation en carburant.
-
RAG multimodal vs ajustement fin:
L'ajustement fin met à jour en permanence les poids du modèle afin d'
apprendre une nouvelle tâche ou un nouveau style. Le RAG fournit des connaissances temporaires au moment de l'inférence. Le RAG est préférable pour les données dynamiques
(par exemple, les stocks quotidiens) où un réentraînement fréquent n'est pas pratique.
Mise en œuvre avec Ultralytics
Les développeurs peuvent créer le composant de récupération d'un pipeline RAG multimodal à l'aide de
Ultralytics YOLO. En détectant et en classifiant les objets dans les images,
YOLO des métadonnées structurées qui peuvent être indexées pour une recherche textuelle ou utilisées pour recadrer les zones pertinentes de l'image
pour un VLM. La Ultralytics simplifie l'entraînement de ces
modèles de vision spécialisés afin qu'ils reconnaissent les objets personnalisés essentiels à votre domaine spécifique.
L'exemple suivant montre comment utiliser YOLO26 pour extraire le
contexte visuel (objets détectés) d'une image, qui pourrait ensuite être transmis à un LLM dans le cadre d'un workflow RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person
Autres lectures et ressources
-
Documentation LangChain:
Guide complet pour la création de pipelines de recherche, incluant la prise en charge multimodale.
-
Guide multimodal LlamaIndex:
Documentation détaillée sur l'indexation et la récupération de types de données complexes pour les LLM.
-
Google Vertex AI Search:
Fonctionnalités de recherche vectorielle de niveau entreprise pour créer des applications RAG évolutives.
-
Ultralytics : Découvrez comment la vision par ordinateur
s'intègre à des systèmes d'IA plus larges dans divers secteurs.