Améliorer les applications d'IA avec RAG et la vision par ordinateur

Abirami Vina

4 min lire

28 mai 2025

Découvrez comment la combinaison de la génération augmentée par récupération (RAG) et de la vision par ordinateur aide les systèmes d'intelligence artificielle à interpréter les documents, les images et les contenus complexes du monde réel.

L'utilisation d'outils d'intelligence artificielle tels que ChatGPT ou Gemini devient rapidement un moyen courant de trouver des informations. Qu'il s'agisse de rédiger un message, de résumer un document ou de répondre à une question, ces outils offrent souvent une solution plus rapide et plus simple. 

Mais si vous avez déjà utilisé de grands modèles de langage (LLM), vous avez probablement remarqué leurs limites. Lorsqu'ils sont confrontés à des requêtes très spécifiques ou urgentes, ils peuvent donner des réponses incorrectes, souvent avec assurance.

Cela est dû au fait que les LLM autonomes s'appuient uniquement sur les données sur lesquelles ils ont été formés. Ils n'ont pas accès aux dernières mises à jour ou aux connaissances spécialisées au-delà de cet ensemble de données. Par conséquent, leurs réponses peuvent être obsolètes ou inexactes.

Pour résoudre ce problème, les chercheurs ont mis au point une méthode appelée " retrieval-augmented generation" (RAG). La RAG améliore les modèles de langage en leur permettant d'extraire des informations fraîches et pertinentes de sources fiables lorsqu'ils répondent à des requêtes.

Dans cet article, nous examinerons le fonctionnement de RAG et la manière dont il améliore les outils d'intelligence artificielle en récupérant des informations pertinentes et actualisées. Nous verrons également comment il fonctionne avec la vision artificielle, un domaine de l'intelligence artificielle axé sur l'interprétation des données visuelles, pour aider les systèmes à comprendre non seulement le texte, mais aussi les images, les mises en page et les documents visuellement complexes.

Comprendre la génération augmentée par récupération (RAG)

Lorsque l'on pose une question à un chatbot IA, on attend généralement plus qu'une réponse qui sonne bien. Idéalement, une bonne réponse doit être claire, précise et réellement utile. Pour y parvenir, le modèle d'IA ne doit pas se contenter de compétences linguistiques ; il doit également avoir accès aux bonnes informations, en particulier pour les sujets spécifiques ou sensibles au facteur temps.

RAG est une technique qui permet de combler cette lacune. Elle associe la capacité du modèle linguistique à comprendre et à générer du texte à la capacité de récupérer des informations pertinentes à partir de sources externes. Au lieu de s'appuyer uniquement sur ses données d'apprentissage, le modèle récupère activement du contenu d'appui dans des bases de connaissances fiables tout en élaborant sa réponse.

Fig. 1. Principaux cas d'utilisation du RAG. Image de l'auteur.

C'est un peu comme si on posait une question à quelqu'un et qu'on lui demandait de consulter une référence fiable avant de répondre. La réponse est toujours formulée dans ses propres termes, mais elle s'appuie sur les informations les plus pertinentes et les plus récentes.

Cette approche permet aux LLM de fournir des réponses plus complètes, plus précises et mieux adaptées à la requête de l'utilisateur, ce qui les rend beaucoup plus fiables dans les applications du monde réel où la précision est essentielle.

Le fonctionnement du RAG

RAG améliore la façon dont un grand modèle linguistique réagit en introduisant deux étapes clés : la récupération et la génération. Tout d'abord, il récupère les informations pertinentes à partir d'une base de connaissances externe. Ensuite, il utilise ces informations pour générer une réponse bien formée et adaptée au contexte.

Prenons un exemple simple pour comprendre comment fonctionne ce processus. Imaginez que vous utilisiez un assistant d'IA pour gérer vos finances personnelles et que vous souhaitiez vérifier si vous avez respecté votre objectif de dépenses pour le mois.

Le processus commence lorsque vous posez à l'assistant une question telle que "Ai-je respecté mon budget ce mois-ci ?". Au lieu de s'appuyer uniquement sur ce qu'il a appris pendant la formation, le système utilise un extracteur pour rechercher dans vos documents financiers les plus récents (relevés bancaires ou résumés de transactions, par exemple). Il s'attache à comprendre l'intention qui sous-tend votre question et recueille les informations les plus pertinentes.

Une fois ces informations récupérées, le modèle linguistique prend le relais. Il traite à la fois votre question et les données extraites de vos dossiers pour générer une réponse claire et utile. Plutôt que d'énumérer des détails bruts, la réponse résume vos dépenses et vous donne un aperçu direct et significatif, par exemple en confirmant que vous avez atteint votre objectif et en mettant en évidence les principaux postes de dépenses.

Cette approche permet au LLM de fournir des réponses non seulement précises, mais également fondées sur vos informations réelles et actualisées, ce qui rend l'expérience bien plus utile qu'un modèle travaillant uniquement avec des données de formation statiques.

Fig. 2. Comprendre le fonctionnement du RAG.

La nécessité de systèmes RAG multimodaux

En règle générale, les informations ne sont pas toujours partagées en texte clair. Qu'il s'agisse de scanners et de diagrammes médicaux, de diapositives de présentation ou de documents scannés, les éléments visuels contiennent souvent des détails importants. Les LLM traditionnels, qui sont principalement conçus pour lire et comprendre du texte, peuvent éprouver des difficultés avec ce type de contenu.

Cependant, la RAG peut être utilisée avec la vision par ordinateur pour combler ce fossé. Lorsque les deux sont réunis, ils forment ce que l'on appelle un système RAG multimodal - une configuration qui peut traiter à la fois du texte et des images, aidant les chatbots IA à fournir des réponses plus précises et plus complètes.

Au cœur de cette approche se trouvent les modèles vision-langage (VLM), qui sont conçus pour traiter et raisonner sur les deux types d'entrée. Dans cette configuration, le RAG extrait les informations les plus pertinentes de vastes sources de données, tandis que le VLM, rendu possible par la vision artificielle, interprète les images, les mises en page et les diagrammes.

Ceci est particulièrement utile pour les documents du monde réel, tels que les formulaires scannés, les rapports médicaux ou les diapositives de présentation, où des détails vitaux peuvent être trouvés à la fois dans le texte et dans les images. Par exemple, lors de l'analyse d'un document comportant des images à côté de tableaux et de paragraphes, un système multimodal peut extraire les éléments visuels, générer un résumé de ce qu'ils montrent et les combiner avec le texte environnant pour fournir une réponse plus complète et plus utile.

Fig. 3. Le RAG multimodal utilise des images et du texte pour fournir de meilleures réponses.

Applications de RAG pour les données visuelles 

Maintenant que nous avons expliqué ce qu'est le RAG et comment il fonctionne avec la vision par ordinateur, examinons quelques exemples du monde réel et des projets de recherche qui illustrent l'utilisation de cette approche.

Comprendre les documents visuels avec VisRAG

Supposons que vous essayiez d'extraire des informations d'un rapport financier ou d'un document juridique scanné. Ces types de fichiers contiennent souvent non seulement du texte, mais aussi des tableaux, des graphiques et des mises en page qui aident à expliquer les informations. Un modèle linguistique simple pourrait négliger ou mal interpréter ces éléments visuels, ce qui entraînerait des réponses incomplètes ou inexactes.

VisRAG a été créé par des chercheurs pour relever ce défi. Il s'agit d'un pipeline RAG basé sur le VLM qui traite chaque page comme une image plutôt que de traiter uniquement le texte. Cela permet au système de comprendre à la fois le contenu et sa structure visuelle. Il peut ainsi trouver les parties les plus pertinentes et donner des réponses plus claires, plus précises et basées sur le contexte complet du document.

Fig. 4. VisRAG peut lire des documents sous forme d'images afin de capturer le contenu textuel et la mise en page.

Réponse visuelle aux questions avec RAG

La réponse aux questions visuelles (RQV) est une tâche dans laquelle un système d'intelligence artificielle répond à des questions sur des images. De nombreux systèmes de VQA existants se concentrent sur la réponse à des questions concernant un seul document sans avoir besoin de rechercher des informations supplémentaires - c'est ce que l'on appelle un cadre fermé.

VDocRAG est un cadre RAG qui adopte une approche plus réaliste. Il intègre l'AQV avec la capacité de récupérer d'abord les documents pertinents. Cela est utile dans les situations réelles où la question d'un utilisateur peut s'appliquer à l'un des nombreux documents et où le système doit trouver le bon document avant de répondre. Pour ce faire, VDocRAG utilise des VLM pour analyser les documents en tant qu'images, en préservant à la fois leur texte et leur structure visuelle.

VDocRAG est donc particulièrement utile dans des applications telles que la recherche d'entreprise, l'automatisation des documents et l'assistance à la clientèle. Il peut aider les équipes à extraire rapidement des réponses de documents complexes et visuellement formatés, tels que des manuels ou des fichiers de politique, où la compréhension de la mise en page est tout aussi importante que la lecture des mots.

Fig. 5. Différence entre les solutions VDocRAG et LLM.

Améliorer le sous-titrage des images avec RAG

Le légendage des images consiste à générer une description écrite de ce qui se passe dans une image. Il est utilisé dans une grande variété d'applications, qu'il s'agisse de rendre le contenu en ligne plus accessible, d'alimenter la recherche d'images ou de soutenir la modération de contenu et les systèmes de recommandation.

Cependant, il n'est pas toujours facile pour les modèles d'IA de générer des légendes précises. C'est particulièrement difficile lorsque l'image montre quelque chose de différent de ce sur quoi le modèle a été entraîné. De nombreux systèmes de sous-titrage s'appuient fortement sur des données d'entraînement, de sorte que lorsqu'ils sont confrontés à des scènes inconnues, leurs sous-titres peuvent s'avérer vagues ou inexacts.

Pour remédier à ce problème, les chercheurs ont mis au point Re-ViLM, une méthode qui intègre la génération augmentée par récupération (RAG) dans le sous-titrage des images. Au lieu de générer une légende à partir de zéro, Re-ViLM récupère des paires image-texte similaires dans une base de données et les utilise pour guider la sortie de la légende. 

Cette approche basée sur la recherche aide le modèle à fonder ses descriptions sur des exemples pertinents, ce qui améliore à la fois la précision et la fluidité. Les premiers résultats montrent que Re-ViLM génère des légendes plus naturelles et contextuelles en utilisant des exemples réels, ce qui permet de réduire les descriptions vagues ou inexactes.

Fig. 6. Re-ViLM améliore les légendes d'images en récupérant des exemples de textes visuels.

Avantages et inconvénients de l'utilisation du RAG pour comprendre les données visuelles

Voici un bref aperçu des avantages de l'application des techniques de génération augmentée pour la récupération et l'utilisation d'informations visuelles : 

  • Amélioration de la de synthèse améliorées : Les résumés peuvent intégrer des éléments visuels (tels que des tendances graphiques ou des éléments infographiques), et pas seulement du texte.
  • Une recherche et une récupération plus robustes: Les étapes de recherche peuvent identifier les pages visuelles pertinentes même lorsque les mots-clés ne sont pas présents dans le texte, en utilisant une compréhension basée sur l'image.
  • Prise en charge des documents numérisés, manuscrits ou à base d'images : Les pipelines RAG activés par les VLM peuvent traiter des contenus qui seraient illisibles pour les modèles textuels uniquement.

Malgré ces avantages, il y a encore quelques limitations à garder à l'esprit lorsque l'on utilise RAG pour travailler avec des données visuelles. En voici quelques-unes :

  • Exigences informatiques élevées : L'analyse des images et du texte nécessite davantage de mémoire et de puissance de traitement, ce qui peut ralentir les performances ou augmenter les coûts.
  • Confidentialité des données et les problèmes de sécurité : Les documents visuels, en particulier dans des secteurs tels que la santé ou la finance, peuvent contenir des informations sensibles qui compliquent les flux de travail de recherche et de traitement.
  • Temps d'inférence plus longs : Le traitement visuel ajoutant de la complexité, la génération de réponses peut prendre plus de temps que les systèmes textuels.

Principaux enseignements

La génération augmentée par récupération améliore la façon dont les grands modèles de langage répondent aux questions en leur permettant d'extraire des informations pertinentes et actualisées de sources externes. Associés à la vision artificielle, ces systèmes peuvent traiter non seulement du texte, mais aussi du contenu visuel, tel que des graphiques, des tableaux, des images et des documents scannés, ce qui permet d'obtenir des réponses plus précises et plus complètes.

Cette approche rend les LLM mieux adaptés aux tâches du monde réel qui impliquent des documents complexes. En associant la recherche et la compréhension visuelle, ces modèles peuvent interpréter divers formats de manière plus efficace et fournir des informations plus utiles dans des contextes pratiques et quotidiens.

Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour approfondir votre connaissance de l'IA. Prêt à lancer vos propres projets de vision par ordinateur ? Consultez nos options de licence. Pour en savoir plus sur l'IA dans le secteur de la santé et sur la vision par ordinateur dans le secteur de la vente au détail, consultez nos pages consacrées aux solutions !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers