Découvrez comment la combinaison de la génération augmentée de récupération (RAG) avec la vision par ordinateur aide les systèmes d'IA à interpréter les documents, les visuels et le contenu complexe du monde réel.
En utilisant des outils d'IA comme ChatGPT Gemini devient rapidement un moyen courant de trouver des informations. Que vous souhaitiez rédiger un message, résumer un document ou répondre à une question, ces outils offrent souvent une solution plus rapide et plus simple.
Mais si vous avez déjà utilisé des modèles de langage volumineux (LLM) , vous avez probablement remarqué leurs limites. Lorsqu'ils sont confrontés à des requêtes très spécifiques ou urgentes, ils peuvent fournir des réponses incorrectes, souvent avec assurance.
Cela se produit car les LLM autonomes s'appuient uniquement sur les données sur lesquelles ils ont été formés. Ils n'ont pas accès aux dernières mises à jour ni aux connaissances spécialisées au-delà de ces données. Par conséquent, leurs réponses peuvent être obsolètes ou inexactes.
Pour résoudre ce problème, les chercheurs ont développé une méthode appelée génération augmentée par récupération (RAG) . La RAG améliore les modèles linguistiques en leur permettant d'extraire des informations récentes et pertinentes provenant de sources fiables pour répondre aux requêtes.
Dans cet article, nous explorerons le fonctionnement de RAG et la manière dont il améliore les outils d'IA en récupérant des informations pertinentes et actualisées. Nous examinerons également son interaction avec la vision par ordinateur , un domaine de l'intelligence artificielle axé sur l'interprétation des données visuelles, pour aider les systèmes à comprendre non seulement le texte, mais aussi les images, les mises en page et les documents visuellement complexes.
Lorsqu'on pose une question à un chatbot IA, on attend généralement plus qu'une réponse convaincante. Idéalement, une bonne réponse doit être claire, précise et véritablement utile. Pour y parvenir, le modèle d'IA a besoin de plus que de compétences linguistiques ; il doit également avoir accès aux bonnes informations, notamment pour des sujets spécifiques ou urgents.
RAG est une technique qui permet de combler cette lacune. Elle allie la capacité du modèle linguistique à comprendre et générer du texte à la capacité d'extraire des informations pertinentes de sources externes. Au lieu de s'appuyer uniquement sur ses données d'entraînement, le modèle puise activement du contenu complémentaire dans des bases de connaissances fiables pour formuler sa réponse.
C'est un peu comme si vous posiez une question à quelqu'un et que vous lui demandiez de consulter une référence fiable avant de répondre. Sa réponse est toujours rédigée dans ses propres mots, mais elle est basée sur les informations les plus pertinentes et les plus récentes.
Cette approche aide les LLM à répondre avec des réponses plus complètes, plus précises et adaptées à la requête de l'utilisateur, ce qui les rend beaucoup plus fiables dans les applications du monde réel où la précision compte vraiment.
RAG améliore la réponse d'un modèle linguistique de grande taille en introduisant deux étapes clés : la récupération et la génération. Tout d'abord, il récupère les informations pertinentes d'une base de connaissances externe. Ensuite, il utilise ces informations pour générer une réponse claire et contextuelle.
Prenons un exemple simple pour comprendre le fonctionnement de ce processus. Imaginez que vous utilisez un assistant IA pour gérer vos finances personnelles et que vous souhaitez vérifier si vous avez respecté votre objectif de dépenses mensuel.
Le processus démarre lorsque vous posez à l'assistant une question du type : « Ai-je respecté mon budget ce mois-ci ? » Au lieu de se fier uniquement aux informations apprises lors de la formation, le système utilise un outil de recherche pour rechercher vos données financières les plus récentes (relevés bancaires ou résumés de transactions, par exemple). Il s'attache à comprendre l'intention derrière votre question et recueille les informations les plus pertinentes.
Une fois ces informations récupérées, le modèle linguistique prend le relais. Il traite à la fois votre question et les données extraites de vos archives pour générer une réponse claire et pertinente. Plutôt que de lister des détails bruts, la réponse résume vos dépenses et vous donne un aperçu direct et pertinent, confirmant par exemple si vous avez atteint votre objectif et soulignant vos principaux postes de dépenses.
Cette approche aide le LLM à fournir des réponses qui sont non seulement précises, mais également fondées sur vos informations réelles et à jour, rendant l'expérience bien plus utile qu'un modèle fonctionnant uniquement avec des données de formation statiques.
En général, les informations ne sont pas toujours partagées en texte clair. Des scanners médicaux et diagrammes aux diapositives de présentation et documents numérisés, les visuels contiennent souvent des informations importantes. Les LLM traditionnels, principalement conçus pour lire et comprendre du texte, peuvent avoir des difficultés avec ce type de contenu.
Cependant, le RAG peut être utilisé en complément de la vision par ordinateur pour combler ce fossé. L'association des deux donne naissance à un système RAG multimodal, capable de gérer à la fois le texte et les images, permettant ainsi aux chatbots IA de fournir des réponses plus précises et plus complètes.
Au cœur de cette approche se trouvent les modèles vision-langage (VLM) , conçus pour traiter et raisonner sur les deux types d'entrées. Dans cette configuration, le RAG récupère les informations les plus pertinentes à partir de sources de données volumineuses, tandis que le VLM, activé par la vision par ordinateur, interprète les images, les mises en page et les diagrammes.
Ceci est particulièrement utile pour les documents réels, tels que les formulaires numérisés, les rapports médicaux ou les diapositives de présentation, où des informations essentielles peuvent être trouvées à la fois dans le texte et dans les éléments visuels. Par exemple, lors de l'analyse d'un document comprenant des images, des tableaux et des paragraphes, un système multimodal peut extraire les éléments visuels, générer un résumé de ce qu'ils montrent et combiner ce résumé avec le texte environnant pour fournir une réponse plus complète et plus pertinente.
Maintenant que nous avons discuté de ce qu'est RAG et de son fonctionnement avec la vision par ordinateur, examinons quelques exemples concrets et projets de recherche qui montrent comment cette approche est utilisée.
Imaginons que vous cherchiez à extraire des informations d'un rapport financier ou d'un document juridique numérisé. Ces types de fichiers contiennent souvent non seulement du texte, mais aussi des tableaux, des graphiques et des mises en page qui expliquent l'information. Un modèle linguistique simple pourrait négliger ou mal interpréter ces éléments visuels, ce qui entraînerait des réponses incomplètes ou inexactes.
VisRAG a été créé par des chercheurs pour répondre à ce défi. Il s'agit d'un pipeline RAG basé sur VLM qui traite chaque page comme une image plutôt que de traiter uniquement le texte. Cela permet au système de comprendre à la fois le contenu et sa structure visuelle. Il peut ainsi identifier les parties les plus pertinentes et fournir des réponses plus claires, plus précises et basées sur le contexte complet du document.
La réponse visuelle aux questions (VQA) est une tâche où un système d'IA répond à des questions portant sur des images. De nombreux systèmes VQA existants se concentrent sur la réponse à des questions portant sur un seul document sans avoir à rechercher d'informations supplémentaires ; on parle alors de configuration fermée.
VDocRAG est un framework RAG adoptant une approche plus réaliste. Il intègre VQA et permet de récupérer en priorité les documents pertinents. Cette fonctionnalité est utile dans les situations concrètes où la question d'un utilisateur peut s'appliquer à un document parmi de nombreux autres et où le système doit trouver le bon avant de répondre. Pour ce faire, VDocRAG utilise des VLM pour analyser les documents comme des images, préservant ainsi leur structure textuelle et visuelle.
Cela rend VDocRAG particulièrement efficace dans des applications telles que la recherche d'entreprise, l'automatisation des documents et le support client . Il peut aider les équipes à extraire rapidement des réponses de documents complexes et visuellement formatés, comme des manuels ou des politiques, où la compréhension de la mise en page est tout aussi importante que la lecture du texte.
Le sous-titrage d'images consiste à générer une description écrite de ce qui se passe dans une image. Il est utilisé dans de nombreuses applications, de l'amélioration de l'accessibilité du contenu en ligne à la recherche d'images, en passant par la modération et les systèmes de recommandation de contenu.
Cependant, générer des sous-titres précis n'est pas toujours chose aisée pour les modèles d'IA. C'est particulièrement difficile lorsque l'image présente un contenu différent de celui sur lequel le modèle a été entraîné. De nombreux systèmes de sous-titrage s'appuient fortement sur les données d'entraînement ; face à des scènes inconnues, leurs sous-titres peuvent donc paraître vagues ou inexacts.
Pour remédier à ce problème, les chercheurs ont développé Re-ViLM , une méthode qui intègre la génération augmentée de récupération (RAG) au sous-titrage d'images. Au lieu de générer une légende de A à Z, Re-ViLM récupère des paires image-texte similaires dans une base de données et les utilise pour orienter la sortie de la légende.
Cette approche basée sur la recherche permet au modèle d'ancrer ses descriptions dans des exemples pertinents, améliorant ainsi la précision et la fluidité. Les premiers résultats montrent que Re-ViLM génère des légendes plus naturelles et contextuelles grâce à des exemples réels, ce qui contribue à réduire les descriptions vagues ou inexactes.
Voici un aperçu rapide des avantages de l’application de techniques de génération augmentée par récupération pour récupérer et utiliser des informations visuelles :
Malgré ces avantages, il existe encore quelques limites à prendre en compte lors de l'utilisation de RAG pour traiter des données visuelles. En voici quelques-unes des principales :
La génération augmentée par récupération améliore la façon dont les grands modèles linguistiques répondent aux questions en leur permettant d'extraire des informations pertinentes et actualisées de sources externes. Associés à la vision par ordinateur, ces systèmes peuvent traiter non seulement du texte, mais aussi du contenu visuel, comme des graphiques, des tableaux, des images et des documents numérisés, pour des réponses plus précises et plus complètes.
Cette approche rend les LLM plus adaptés aux tâches concrètes impliquant des documents complexes. En alliant recherche et compréhension visuelle, ces modèles peuvent interpréter plus efficacement divers formats et fournir des informations plus utiles dans des contextes pratiques et quotidiens.
Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour approfondir vos connaissances en IA. Prêt à lancer vos propres projets de vision par ordinateur ? Découvrez nos options de licence . Pour en savoir plus sur l'IA dans le secteur de la santé et la vision par ordinateur dans le commerce de détail, consultez nos pages de solutions !
Commence ton voyage avec le futur de l'apprentissage automatique.