Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Améliorer les applications d'IA avec RAG et la vision par ordinateur

Abirami Vina

4 min de lecture

28 mai 2025

Découvrez comment la combinaison de la génération augmentée par la récupération (RAG) et de la vision par ordinateur aide les systèmes d'IA à interpréter les documents, les visuels et le contenu complexe du monde réel.

L'utilisation d'outils d'IA comme ChatGPT ou Gemini est en train de devenir un moyen courant de trouver des informations. Que vous rédigiez un message, résumiez un document ou répondiez à une question, ces outils offrent souvent une solution plus rapide et plus facile. 

Mais si vous avez utilisé des modèles de langage de grande taille (LLM) à plusieurs reprises, vous avez probablement remarqué leurs limites. Lorsqu'on leur pose des questions très spécifiques ou urgentes, ils peuvent répondre par des réponses incorrectes, souvent avec assurance.

Cela se produit parce que les LLM autonomes s'appuient uniquement sur les données sur lesquelles ils ont été entraînés. Ils n'ont pas accès aux dernières mises à jour ou aux connaissances spécialisées au-delà de cet ensemble de données. Par conséquent, leurs réponses peuvent être dépassées ou inexactes.

Pour aider à résoudre ce problème, les chercheurs ont mis au point une méthode appelée génération augmentée par la récupération (RAG). La RAG améliore les modèles de langage en leur permettant d'extraire des informations fraîches et pertinentes de sources fiables lorsqu'ils répondent à des requêtes.

Dans cet article, nous allons explorer le fonctionnement de la RAG et la façon dont elle améliore les outils d'IA en récupérant des informations pertinentes et à jour. Nous examinerons également comment elle fonctionne avec la vision par ordinateur, un domaine de l'intelligence artificielle axé sur l'interprétation des données visuelles, pour aider les systèmes à comprendre non seulement le texte, mais aussi les images, les mises en page et les documents visuellement complexes.

Comprendre la génération augmentée par la récupération (RAG)

Lorsque nous posons une question à un chatbot d'IA, nous attendons généralement plus qu'une simple réponse qui sonne bien. Idéalement, une bonne réponse doit être claire, précise et réellement utile. Pour ce faire, le modèle d'IA a besoin de plus que des compétences linguistiques ; il a également besoin d'accéder aux bonnes informations, en particulier pour les sujets spécifiques ou urgents.

La technique RAG contribue à combler cette lacune. Elle combine la capacité du modèle linguistique à comprendre et à générer du texte avec la capacité d'extraire des informations pertinentes de sources externes. Au lieu de s'appuyer uniquement sur ses données d'entraînement, le modèle intègre activement du contenu justificatif provenant de bases de connaissances fiables lors de la formulation de sa réponse.

Fig. 1. Principaux cas d'utilisation de RAG. Image de l'auteur.

Vous pouvez imaginer que vous posez une question à quelqu'un et que cette personne consulte une référence fiable avant de répondre. Sa réponse est toujours formulée avec ses propres mots, mais elle est étayée par les informations les plus pertinentes et les plus récentes.

Cette approche aide les LLM à répondre avec des réponses plus complètes, plus précises et adaptées à la requête de l'utilisateur, ce qui les rend beaucoup plus fiables dans les applications du monde réel où la précision est vraiment importante.

Un aperçu du fonctionnement de RAG

RAG améliore la façon dont un grand modèle linguistique répond en introduisant deux étapes clés : l'extraction et la génération. Tout d'abord, il extrait les informations pertinentes d'une base de connaissances externe. Ensuite, il utilise ces informations pour générer une réponse bien formulée et tenant compte du contexte.

Prenons un exemple simple pour voir comment ce processus fonctionne. Imaginez que vous utilisez un assistant IA pour gérer vos finances personnelles et que vous souhaitez vérifier si vous avez respecté votre objectif de dépenses pour le mois.

Le processus commence lorsque vous posez à l'assistant une question telle que « Ai-je respecté mon budget ce mois-ci ? ». Au lieu de se fier uniquement à ce qu'il a appris pendant l'entraînement, le système utilise un extracteur pour rechercher dans vos relevés financiers les plus récents (par exemple, des relevés bancaires ou des récapitulatifs de transactions). Il se concentre sur la compréhension de l'intention derrière votre question et rassemble les informations les plus pertinentes.

Une fois ces informations extraites, le modèle linguistique prend le relais. Il traite à la fois votre question et les données extraites de vos relevés pour générer une réponse claire et utile. Plutôt que d'énumérer des détails bruts, la réponse résume vos dépenses et vous donne un aperçu direct et significatif, par exemple en confirmant si vous avez atteint votre objectif et en soulignant les principaux domaines de dépenses.

Cette approche aide le LLM à fournir des réponses qui sont non seulement précises, mais aussi basées sur vos informations réelles et à jour, ce qui rend l'expérience beaucoup plus utile qu'un modèle fonctionnant uniquement avec des données d'entraînement statiques.

Fig. 2. Comprendre le fonctionnement de RAG.

La nécessité de systèmes RAG multimodaux

En général, les informations ne sont pas toujours partagées en texte brut. Des scans et diagrammes médicaux aux diapositives de présentation et aux documents numérisés, les éléments visuels contiennent souvent des détails importants. Les LLM traditionnels, qui sont principalement conçus pour lire et comprendre le texte, peuvent avoir des difficultés avec ce type de contenu.

Cependant, RAG peut être utilisé en parallèle avec la vision par ordinateur pour combler cette lacune. Lorsque les deux sont réunis, ils forment ce que l'on appelle un système RAG multimodal, une configuration capable de traiter à la fois le texte et les éléments visuels, aidant ainsi les chatbots IA à fournir des réponses plus précises et plus complètes.

Au cœur de cette approche se trouvent les modèles vision-langage (VLM), qui sont conçus pour traiter et raisonner sur les deux types d'entrée. Dans cette configuration, RAG extrait les informations les plus pertinentes de grandes sources de données, tandis que le VLM, activé par la vision par ordinateur, interprète les images, les mises en page et les diagrammes.

Ceci est particulièrement utile pour les documents du monde réel, tels que les formulaires numérisés, les rapports médicaux ou les diapositives de présentation, où des détails essentiels peuvent être trouvés à la fois dans le texte et dans les éléments visuels. Par exemple, lors de l'analyse d'un document qui comprend des images à côté de tableaux et de paragraphes, un système multimodal peut extraire des éléments visuels, générer un résumé de ce qu'ils montrent et combiner cela avec le texte environnant pour fournir une réponse plus complète et plus utile.

Fig. 3. RAG multimodal utilise des images et du texte pour fournir de meilleures réponses.

Applications de RAG pour les données visuelles 

Maintenant que nous avons discuté de ce qu'est RAG et de son fonctionnement avec la vision par ordinateur, examinons quelques exemples concrets et projets de recherche qui montrent comment cette approche est utilisée.

Comprendre les documents visuels avec VisRAG

Supposons que vous essayez d'extraire des informations d'un rapport financier ou d'un document juridique numérisé. Ces types de fichiers comprennent souvent non seulement du texte, mais aussi des tableaux, des graphiques et des mises en page qui aident à expliquer les informations. Un modèle linguistique simple pourrait négliger ou mal interpréter ces éléments visuels, ce qui entraînerait des réponses incomplètes ou inexactes.

VisRAG a été créé par des chercheurs pour relever ce défi. Il s'agit d'un pipeline RAG basé sur VLM qui traite chaque page comme une image plutôt que de traiter uniquement le texte. Cela permet au système de comprendre à la fois le contenu et sa structure visuelle. Par conséquent, il peut trouver les parties les plus pertinentes et donner des réponses plus claires, plus précises et basées sur le contexte complet du document.

Fig. 4. VisRAG peut lire les documents sous forme d'images pour capturer le contenu textuel et la mise en page.

Réponse aux questions visuelles avec RAG

La réponse aux questions visuelles (VQA) est une tâche dans laquelle un système d'IA répond à des questions sur des images. De nombreux systèmes VQA existants se concentrent sur la réponse à des questions sur un seul document sans avoir besoin de rechercher des informations supplémentaires - c'est ce que l'on appelle un cadre fermé.

VDocRAG est un framework RAG qui adopte une approche plus réaliste. Il intègre la VQA avec la capacité de récupérer d'abord les documents pertinents. Ceci est utile dans des situations réelles où la question d'un utilisateur peut s'appliquer à l'un des nombreux documents, et le système doit trouver le bon avant de répondre. Pour ce faire, VDocRAG utilise des VLM pour analyser les documents en tant qu'images, en préservant à la fois leur texte et leur structure visuelle.

Cela rend VDocRAG particulièrement efficace dans des applications telles que la recherche d'entreprise, l'automatisation de documents et le support client. Il peut aider les équipes à extraire rapidement des réponses à partir de documents complexes et visuellement formatés, tels que des manuels ou des fichiers de politiques, où la compréhension de la mise en page est tout aussi importante que la lecture des mots.

Fig 5. La différence entre VDocRAG et les solutions basées sur LLM.

Amélioration de la légende d'images avec RAG

La légende d'images consiste à générer une description écrite de ce qui se passe dans une image. Elle est utilisée dans diverses applications, de l'amélioration de l'accessibilité du contenu en ligne à l'optimisation de la recherche d'images, en passant par la prise en charge de la modération de contenu et des systèmes de recommandation.

Cependant, la génération de légendes précises n'est pas toujours facile pour les modèles d'IA. C'est particulièrement difficile lorsque l'image montre quelque chose de différent de ce sur quoi le modèle a été entraîné. De nombreux systèmes de légende reposent fortement sur les données d'entraînement, de sorte que, face à des scènes inconnues, leurs légendes peuvent être vagues ou inexactes.

Pour résoudre ce problème, des chercheurs ont développé Re-ViLM, une méthode qui introduit la génération augmentée par la récupération (RAG) dans la légende d'images. Au lieu de générer une légende à partir de zéro, Re-ViLM récupère des paires image-texte similaires à partir d'une base de données et les utilise pour guider la sortie de la légende. 

Cette approche basée sur la récupération aide le modèle à ancrer ses descriptions dans des exemples pertinents, améliorant ainsi à la fois la précision et la fluidité. Les premiers résultats montrent que Re-ViLM génère des légendes plus naturelles et contextuelles en utilisant des exemples réels, ce qui contribue à réduire les descriptions vagues ou inexactes.

Fig 6. Re-ViLM améliore les légendes d'images en récupérant des exemples visuels-textuels.

Avantages et inconvénients de l'utilisation de RAG pour comprendre les données visuelles

Voici un aperçu rapide des avantages de l'application des techniques de génération augmentée par la récupération pour récupérer et utiliser des informations visuelles : 

  • Capacités de résumé améliorées : Les résumés peuvent intégrer des informations provenant de visuels (comme les tendances des graphiques ou les éléments d'infographie), et pas seulement du texte.
  • Recherche et récupération plus robustes : Les étapes de récupération peuvent identifier les pages visuelles pertinentes même lorsque les mots-clés ne sont pas présents dans le texte, en utilisant la compréhension basée sur l'image.
  • Prise en charge des documents numérisés, manuscrits ou basés sur des images : Les pipelines RAG activés par les VLM peuvent traiter du contenu qui serait illisible pour les modèles textuels uniquement.

Malgré ces avantages, il existe encore quelques limitations à garder à l'esprit lors de l'utilisation de RAG pour travailler avec des données visuelles. Voici quelques-unes des principales :

  • Besoins informatiques élevés : L'analyse des images et du texte utilise plus de mémoire et de puissance de traitement, ce qui peut ralentir les performances ou augmenter les coûts.
  • Confidentialité des données et préoccupations de sécurité : Les documents visuels, en particulier dans des secteurs comme la santé ou la finance, peuvent contenir des informations sensibles qui compliquent les flux de travail de récupération et de traitement.
  • Temps d'inférence plus longs : Étant donné que le traitement visuel ajoute de la complexité, la génération de réponses peut prendre plus de temps par rapport aux systèmes textuels uniquement.

Principaux points à retenir

La génération augmentée par la récupération améliore la façon dont les grands modèles de langage répondent aux questions en leur permettant d'extraire des informations pertinentes et à jour à partir de sources externes. Lorsqu'ils sont associés à la vision par ordinateur, ces systèmes peuvent traiter non seulement du texte, mais aussi du contenu visuel, tel que des graphiques, des tableaux, des images et des documents numérisés, ce qui conduit à des réponses plus précises et complètes.

Cette approche rend les LLM mieux adaptés aux tâches du monde réel qui impliquent des documents complexes. En combinant la récupération et la compréhension visuelle, ces modèles peuvent interpréter plus efficacement divers formats et fournir des informations plus utiles dans des contextes pratiques et quotidiens.

Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour approfondir vos connaissances en IA. Prêt à démarrer vos propres projets de vision par ordinateur ? Consultez nos options de licence. Découvrez-en davantage sur l'IA dans le secteur de la santé et la vision par ordinateur dans le commerce de détail sur nos pages de solutions !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers