Génération augmentée de récupération (RAG)
Découvrez comment la génération augmentée par la récupération (RAG) optimise les modèles linguistiques à grande échelle (LLM) grâce à des données en temps réel. Apprenez à créer des pipelines multimodaux à l'aide Ultralytics pour la RAG visuelle.
La génération augmentée par récupération (RAG) est une technique avancée dans le domaine de l'intelligence artificielle qui optimise
la production d'un
grand modèle linguistique (LLM) en se référant à
une base de connaissances faisant autorité en dehors de ses données d'entraînement. Les modèles génératifs traditionnels s'appuient uniquement sur des informations statiques
apprises lors de leur entraînement initial, ce qui peut conduire à des réponses obsolètes ou à des inexactitudes certaines, appelées
hallucinations. La RAG comble cette lacune en
récupérant des informations pertinentes et actualisées à partir de sources externes, telles que les bases de données d'entreprises, l'actualité ou les
manuels techniques, et en les transmettant au modèle comme contexte avant de générer une réponse. Ce processus garantit que les
résultats de l'IA sont non seulement cohérents sur le plan linguistique, mais aussi exacts sur le plan factuel et fondés sur des données spécifiques.
Fonctionnement des systèmes RAG
L'architecture d'un système RAG comprend généralement deux phases principales : la récupération et la génération. Ce flux de travail permet aux
développeurs de maintenir un modèle de base sans
avoir à procéder à des réentraînements fréquents et coûteux.
-
Récupération : lorsqu'un utilisateur soumet une requête, le système effectue d'abord une
recherche sémantique dans un système de stockage spécialisé
appelé base de données vectorielle. Cette base de données
contient des données qui ont été converties en représentations numériques appelées
« embeddings », ce qui permet au système de trouver des informations conceptuellement
similaires plutôt que de simplement faire correspondre des mots-clés.
-
Génération : les documents ou extraits de données pertinents trouvés lors de la recherche sont combinés à la
question initiale de l'utilisateur. Cette invite enrichie est ensuite envoyée au modèle génératif. Le modèle utilise ce contexte fourni
pour synthétiser une réponse, en s'assurant que celle-ci repose sur les faits récupérés. Pour approfondir le sujet,
IBM propose un guide complet sur les workflows RAG.
RAG visuel : intégration de la vision par ordinateur
Alors que le RAG est traditionnellement basé sur le texte, l'essor de l'
apprentissage multimodal a introduit le
« RAG visuel ». Dans ce scénario, les
modèles de vision par ordinateur agissent comme mécanisme de récupération.
Ils analysent des images ou des flux vidéo pour extraire des données textuelles structurées, telles que les noms d'objets, les comptes ou les
activités, qui sont ensuite introduites dans un LLM pour répondre à des questions sur la scène visuelle.
Par exemple, un développeur peut utiliser YOLO26 pour detect dans
une image et transmettre cette liste d'objets à un modèle de texte afin de générer un rapport descriptif.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
Applications concrètes
RAG transforme les industries en permettant aux agents IA d'
accéder en toute sécurité à des données propriétaires ou en temps réel.
-
Bases de connaissances d'entreprise : les entreprises utilisent le RAG pour créer des chatbots internes qui répondent aux questions des employés
sur les politiques RH ou la documentation technique. En connectant un LLM à un référentiel de documents en temps réel, le
système évite de fournir des informations obsolètes sur les politiques. Pour en savoir plus sur les implémentations en entreprise, consultez
la présentation du RAG dans Vertex AIGoogle .
-
Aide à la décision clinique : dans le domaine de l'
IA appliquée aux soins de santé, les systèmes RAG peuvent récupérer les
antécédents des patients et les articles de recherche médicale récents afin d'aider les médecins à établir leur diagnostic, en veillant à ce que leurs conseils tiennent compte des
toutes dernières études cliniques.
-
Assistants commerciaux intelligents : les applications utilisant l'
IA dans le commerce de détail exploitent le RAG pour vérifier les bases de données d'inventaire en temps réel.
Si un client demande à un chatbot : « Avez-vous ces chaussures de course en taille 44 ? », le modèle
récupère les niveaux de stock en temps réel avant de répondre, évitant ainsi toute frustration liée à des articles en rupture de stock.
RAG vs. réglage fin
Il est essentiel de distinguer le RAG du réglage fin, car
ils résolvent des problèmes différents.
-
RAG (Retrieval Augmented Generation) : idéal pour accéder à des données dynamiques qui changent fréquemment (par exemple, les
cours de la bourse, les actualités) ou à des données privées qui ne figurent pas dans l'ensemble d'apprentissage public. Il vise principalement à fournir de
nouvelles informations au moment de l'exécution.
-
Réglage fin : idéal pour adapter le comportement, le style ou la terminologie du modèle. Il consiste à mettre à jour
les pondérations du modèle sur un ensemble de données spécifique. Si le
réglage fin aide un modèle à apprendre un modèle linguistique spécifique (comme le jargon médical), il ne donne pas accès à des
informations en temps réel. Consultez le
guide d'OpenAI sur le réglage fin par rapport au RAG pour les
cadres décisionnels.
Concepts connexes
-
LangChain: un framework open source populaire
spécialement conçu pour simplifier la création d'applications RAG en enchaînant des récupérateurs et des
LLM.
-
Graphique de connaissances: une
façon structurée de représenter les données pouvant être utilisée comme source de récupération, offrant des relations plus riches en contexte qu'une
simple similarité vectorielle.
-
Ingénierie des invites: l'art
de créer des entrées pour guider le modèle. Le RAG est essentiellement une forme automatisée d'ingénierie des invites où l'
« invite » est enrichie de données récupérées par programmation.
-
Ultralytics : alors que RAG gère la génération de texte
, des plateformes comme celle-ci sont essentielles pour gérer le
prétraitement des données et l'entraînement des modèles de vision
qui alimentent les pipelines RAG multimodaux en données visuelles.