Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Génération augmentée de récupération (RAG)

Découvrez comment la génération augmentée par la récupération (RAG) optimise les modèles linguistiques à grande échelle (LLM) grâce à des données en temps réel. Apprenez à créer des pipelines multimodaux à l'aide Ultralytics pour la RAG visuelle.

La génération augmentée par récupération (RAG) est une technique avancée dans le domaine de l'intelligence artificielle qui optimise la production d'un grand modèle linguistique (LLM) en se référant à une base de connaissances faisant autorité en dehors de ses données d'entraînement. Les modèles génératifs traditionnels s'appuient uniquement sur des informations statiques apprises lors de leur entraînement initial, ce qui peut conduire à des réponses obsolètes ou à des inexactitudes certaines, appelées hallucinations. La RAG comble cette lacune en récupérant des informations pertinentes et actualisées à partir de sources externes, telles que les bases de données d'entreprises, l'actualité ou les manuels techniques, et en les transmettant au modèle comme contexte avant de générer une réponse. Ce processus garantit que les résultats de l'IA sont non seulement cohérents sur le plan linguistique, mais aussi exacts sur le plan factuel et fondés sur des données spécifiques.

Fonctionnement des systèmes RAG

L'architecture d'un système RAG comprend généralement deux phases principales : la récupération et la génération. Ce flux de travail permet aux développeurs de maintenir un modèle de base sans avoir à procéder à des réentraînements fréquents et coûteux.

  1. Récupération : lorsqu'un utilisateur soumet une requête, le système effectue d'abord une recherche sémantique dans un système de stockage spécialisé appelé base de données vectorielle. Cette base de données contient des données qui ont été converties en représentations numériques appelées « embeddings », ce qui permet au système de trouver des informations conceptuellement similaires plutôt que de simplement faire correspondre des mots-clés.
  2. Génération : les documents ou extraits de données pertinents trouvés lors de la recherche sont combinés à la question initiale de l'utilisateur. Cette invite enrichie est ensuite envoyée au modèle génératif. Le modèle utilise ce contexte fourni pour synthétiser une réponse, en s'assurant que celle-ci repose sur les faits récupérés. Pour approfondir le sujet, IBM propose un guide complet sur les workflows RAG.

RAG visuel : intégration de la vision par ordinateur

Alors que le RAG est traditionnellement basé sur le texte, l'essor de l' apprentissage multimodal a introduit le « RAG visuel ». Dans ce scénario, les modèles de vision par ordinateur agissent comme mécanisme de récupération. Ils analysent des images ou des flux vidéo pour extraire des données textuelles structurées, telles que les noms d'objets, les comptes ou les activités, qui sont ensuite introduites dans un LLM pour répondre à des questions sur la scène visuelle.

Par exemple, un développeur peut utiliser YOLO26 pour detect dans une image et transmettre cette liste d'objets à un modèle de texte afin de générer un rapport descriptif.

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

Applications concrètes

RAG transforme les industries en permettant aux agents IA d' accéder en toute sécurité à des données propriétaires ou en temps réel.

  • Bases de connaissances d'entreprise : les entreprises utilisent le RAG pour créer des chatbots internes qui répondent aux questions des employés sur les politiques RH ou la documentation technique. En connectant un LLM à un référentiel de documents en temps réel, le système évite de fournir des informations obsolètes sur les politiques. Pour en savoir plus sur les implémentations en entreprise, consultez la présentation du RAG dans Vertex AIGoogle .
  • Aide à la décision clinique : dans le domaine de l' IA appliquée aux soins de santé, les systèmes RAG peuvent récupérer les antécédents des patients et les articles de recherche médicale récents afin d'aider les médecins à établir leur diagnostic, en veillant à ce que leurs conseils tiennent compte des toutes dernières études cliniques.
  • Assistants commerciaux intelligents : les applications utilisant l' IA dans le commerce de détail exploitent le RAG pour vérifier les bases de données d'inventaire en temps réel. Si un client demande à un chatbot : « Avez-vous ces chaussures de course en taille 44 ? », le modèle récupère les niveaux de stock en temps réel avant de répondre, évitant ainsi toute frustration liée à des articles en rupture de stock.

RAG vs. réglage fin

Il est essentiel de distinguer le RAG du réglage fin, car ils résolvent des problèmes différents.

  • RAG (Retrieval Augmented Generation) : idéal pour accéder à des données dynamiques qui changent fréquemment (par exemple, les cours de la bourse, les actualités) ou à des données privées qui ne figurent pas dans l'ensemble d'apprentissage public. Il vise principalement à fournir de nouvelles informations au moment de l'exécution.
  • Réglage fin : idéal pour adapter le comportement, le style ou la terminologie du modèle. Il consiste à mettre à jour les pondérations du modèle sur un ensemble de données spécifique. Si le réglage fin aide un modèle à apprendre un modèle linguistique spécifique (comme le jargon médical), il ne donne pas accès à des informations en temps réel. Consultez le guide d'OpenAI sur le réglage fin par rapport au RAG pour les cadres décisionnels.

Concepts connexes

  • LangChain: un framework open source populaire spécialement conçu pour simplifier la création d'applications RAG en enchaînant des récupérateurs et des LLM.
  • Graphique de connaissances: une façon structurée de représenter les données pouvant être utilisée comme source de récupération, offrant des relations plus riches en contexte qu'une simple similarité vectorielle.
  • Ingénierie des invites: l'art de créer des entrées pour guider le modèle. Le RAG est essentiellement une forme automatisée d'ingénierie des invites où l' « invite » est enrichie de données récupérées par programmation.
  • Ultralytics : alors que RAG gère la génération de texte , des plateformes comme celle-ci sont essentielles pour gérer le prétraitement des données et l'entraînement des modèles de vision qui alimentent les pipelines RAG multimodaux en données visuelles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant