Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

Améliorer les applications d'IA avec le RAG et la vision par ordinateur

Apprends comment combiner la génération augmentée par récupération (RAG) avec la vision par ordinateur aide les systèmes d'IA à interpréter des documents, des visuels et des contenus complexes du monde réel.

ABAbirami Vina
4 min read
Améliorer les applications d'IA avec le RAG et la vision par ordinateur

L'utilisation d'outils d'IA tels que ChatGPT ou Gemini devient rapidement un moyen courant de trouver des informations. Que tu rédiges un message, résumes un document ou répondes à une question, ces outils offrent souvent une solution plus rapide et plus simple.

Mais si tu as déjà utilisé des grands modèles de langage (LLM) à quelques reprises, tu as probablement remarqué leurs limites. Lorsqu'ils sont sollicités avec des requêtes très spécifiques ou sensibles au facteur temps, ils peuvent répondre de manière incorrecte, souvent avec assurance.

Cela se produit parce que les LLM autonomes s'appuient uniquement sur les données sur lesquelles ils ont été entraînés. Ils n'ont pas accès aux dernières mises à jour ou à des connaissances spécialisées en dehors de cet ensemble de données. Par conséquent, leurs réponses peuvent être obsolètes ou inexactes.

Pour aider à résoudre ce problème, les chercheurs ont développé une méthode appelée génération augmentée par récupération (RAG). Le RAG améliore les modèles de langage en leur permettant d'extraire des informations fraîches et pertinentes provenant de sources fiables lorsqu'ils répondent à des requêtes.

Dans cet article, nous explorerons le fonctionnement du RAG et la manière dont il améliore les outils d'IA en récupérant des informations pertinentes et à jour. Nous examinerons également comment il fonctionne parallèlement à la vision par ordinateur, un domaine de l'intelligence artificielle axé sur l'interprétation des données visuelles, pour aider les systèmes à comprendre non seulement le texte mais aussi les images, les mises en page et les documents visuellement complexes.

Link to this sectionComprendre la génération augmentée par récupération (RAG)#

Lorsque nous posons une question à un chatbot IA, nous attendons généralement plus qu'une simple réponse qui sonne bien. Idéalement, une bonne réponse doit être claire, précise et véritablement utile. Pour y parvenir, le modèle d'IA a besoin de plus que de compétences linguistiques ; il a également besoin d'accéder aux bonnes informations, en particulier pour des sujets spécifiques ou sensibles au facteur temps.

Le RAG est une technique qui aide à combler cette lacune. Elle associe la capacité du modèle de langage à comprendre et à générer du texte à la puissance de récupération d'informations pertinentes à partir de sources externes. Au lieu de s'appuyer uniquement sur ses données d'entraînement, le modèle extrait activement du contenu de soutien provenant de bases de connaissances fiables tout en formulant sa réponse.

Principaux cas d'utilisation de RAG

Fig 1. Cas d'utilisation clés du RAG. Image par l'auteur.

Tu peux concevoir cela comme le fait de poser une question à quelqu'un et de le voir consulter une référence fiable avant de répondre. Sa réponse reste formulée avec ses propres mots, mais elle est informée par les informations les plus pertinentes et à jour.

Cette approche aide les LLM à répondre avec des réponses plus complètes, précises et adaptées à la requête de l'utilisateur, ce qui les rend beaucoup plus fiables dans les applications du monde réel où la précision compte vraiment.

Link to this sectionUn aperçu du fonctionnement du RAG#

Le RAG améliore la façon dont un grand modèle de langage répond en introduisant deux étapes clés : la récupération et la génération. Tout d'abord, il récupère des informations pertinentes à partir d'une base de connaissances externe. Ensuite, il utilise ces informations pour générer une réponse bien formulée et consciente du contexte.

Prenons un exemple simple pour voir comment ce processus fonctionne. Imagine que tu utilises un assistant IA pour gérer tes finances personnelles et que tu souhaites vérifier si tu as respecté ton objectif de dépenses pour le mois.

Le processus commence lorsque tu poses à l'assistant une question comme : "Ai-je respecté mon budget ce mois-ci ?" Au lieu de s'appuyer uniquement sur ce qu'il a appris pendant l'entraînement, le système utilise un récupérateur pour effectuer une recherche dans tes documents financiers les plus récents (des éléments comme des relevés bancaires ou des résumés de transactions). Il se concentre sur la compréhension de l'intention derrière ta question et rassemble les informations les plus pertinentes.

Une fois ces informations récupérées, le modèle de langage prend le relais. Il traite à la fois ta question et les données extraites de tes enregistrements pour générer une réponse claire et utile. Plutôt que de lister des détails bruts, la réponse résume tes dépenses et te donne un aperçu direct et significatif - par exemple en confirmant si tu as atteint ton objectif et en soulignant les domaines de dépenses clés.

Cette approche aide le LLM à fournir des réponses qui sont non seulement précises, mais aussi fondées sur tes informations réelles et à jour, rendant l'expérience beaucoup plus utile qu'un modèle travaillant uniquement avec des données d'entraînement statiques.

Comprendre le fonctionnement de RAG

Fig 2. Comprendre le fonctionnement du RAG.

Link to this sectionLe besoin de systèmes RAG multimodaux#

Généralement, l'information n'est pas toujours partagée sous forme de texte brut. Des scanners médicaux et diagrammes aux diapositives de présentation et documents numérisés, les visuels contiennent souvent des détails importants. Les LLM traditionnels, qui sont principalement conçus pour lire et comprendre le texte, peuvent avoir des difficultés avec ce type de contenu.

Cependant, le RAG peut être utilisé parallèlement à la vision par ordinateur pour combler cette lacune. Lorsque les deux sont réunis, ils forment ce que l'on appelle un système RAG multimodal - une configuration capable de gérer à la fois le texte et les visuels, aidant les chatbots IA à fournir des réponses plus précises et complètes.

Au cœur de cette approche se trouvent les modèles vision-langage (VLM), qui sont conçus pour traiter et raisonner sur les deux types d'entrée. Dans cette configuration, le RAG récupère les informations les plus pertinentes à partir de grandes sources de données, tandis que le VLM, activé par la vision par ordinateur, interprète les images, les mises en page et les diagrammes.

Cela est particulièrement utile pour les documents du monde réel, comme les formulaires numérisés, les rapports médicaux ou les diapositives de présentation, où des détails vitaux peuvent être trouvés à la fois dans le texte et dans les visuels. Par exemple, lors de l'analyse d'un document qui comprend des images aux côtés de tableaux et de paragraphes, un système multimodal peut extraire des éléments visuels, générer un résumé de ce qu'ils montrent et combiner cela avec le texte environnant pour fournir une réponse plus complète et utile.

RAG multimodal utilisant des images et du texte pour fournir de meilleures réponses

Fig 3. Le RAG multimodal utilise des images et du texte pour fournir de meilleures réponses.

Link to this sectionApplications du RAG pour les données visuelles#

Maintenant que nous avons discuté de ce qu'est le RAG et de la façon dont il fonctionne avec la vision par ordinateur, examinons quelques exemples réels et projets de recherche qui montrent comment cette approche est utilisée.

Link to this sectionComprendre les documents visuels avec VisRAG#

Disons que tu essaies d'extraire des informations d'un rapport financier ou d'un document juridique numérisé. Ces types de fichiers incluent souvent non seulement du texte, mais aussi des tableaux, des graphiques et des mises en page qui aident à expliquer l'information. Un modèle de langage simple pourrait négliger ou mal interpréter ces éléments visuels, ce qui conduirait à des réponses incomplètes ou inexactes.

VisRAG a été créé par des chercheurs pour relever ce défi. Il s'agit d'un pipeline RAG basé sur les VLM qui traite chaque page comme une image plutôt que de traiter uniquement le texte. Cela permet au système de comprendre à la fois le contenu et sa structure visuelle. En conséquence, il peut trouver les parties les plus pertinentes et donner des réponses plus claires, plus précises et basées sur le contexte complet du document.

VisRAG lisant des documents sous forme d'images pour capturer le contenu et la mise en page

Fig 4. VisRAG peut lire des documents comme des images pour capturer le contenu textuel et la mise en page.

Link to this sectionRéponse aux questions visuelles avec RAG#

La réponse aux questions visuelles (VQA) est une tâche où un système d'IA répond à des questions sur des images. De nombreux systèmes VQA existants se concentrent sur la réponse à des questions sur un seul document sans avoir besoin de rechercher des informations supplémentaires - c'est ce qu'on appelle un cadre fermé.

VDocRAG est un cadre RAG qui adopte une approche plus réaliste. Il intègre le VQA avec la capacité de récupérer d'abord des documents pertinents. Ceci est utile dans des situations réelles où la question d'un utilisateur peut s'appliquer à l'un des nombreux documents, et où le système doit trouver le bon avant de répondre. Pour ce faire, VDocRAG utilise des VLM pour analyser les documents sous forme d'images, préservant à la fois leur texte et leur structure visuelle.

Cela rend VDocRAG particulièrement efficace dans des applications comme la recherche en entreprise, l'automatisation de documents et le service client. Il peut aider les équipes à extraire rapidement des réponses à partir de documents complexes et formatés visuellement, comme des manuels ou des fichiers de politique, où la compréhension de la mise en page est tout aussi importante que la lecture des mots.

La différence entre VDocRAG et les solutions basées sur des LLM

Fig 5. La différence entre VDocRAG et les solutions basées sur LLM.

Link to this sectionAméliorer le sous-titrage d'images avec le RAG#

Le sous-titrage d'images implique la génération d'une description écrite de ce qui se passe dans une image. Il est utilisé dans une variété d'applications - de rendre le contenu en ligne plus accessible à l'alimentation de la recherche d'images, en passant par le soutien à la modération de contenu et aux systèmes de recommandation.

Cependant, générer des sous-titres précis n'est pas toujours facile pour les modèles d'IA. C'est particulièrement difficile lorsque l'image montre quelque chose de différent de ce sur quoi le modèle a été entraîné. De nombreux systèmes de sous-titrage s'appuient fortement sur les données d'entraînement, donc lorsqu'ils sont confrontés à des scènes inconnues, leurs sous-titres peuvent devenir vagues ou inexacts.

Pour résoudre ce problème, les chercheurs ont développé Re-ViLM, une méthode qui intègre la génération augmentée par récupération (RAG) dans le sous-titrage d'images. Au lieu de générer un sous-titre à partir de zéro, Re-ViLM récupère des paires image-texte similaires à partir d'une base de données et les utilise pour guider la sortie du sous-titre.

Cette approche basée sur la récupération aide le modèle à ancrer ses descriptions dans des exemples pertinents, améliorant à la fois la précision et la fluidité. Les premiers résultats montrent que Re-ViLM génère des sous-titres plus naturels et conscients du contexte en utilisant des exemples réels, aidant à réduire les descriptions vagues ou inexactes.

Re-ViLM améliorant les légendes d'images en récupérant des exemples visuels et textuels

Fig 6. Re-ViLM améliore les sous-titres d'images en récupérant des exemples visuels-textuels.

Link to this sectionAvantages et inconvénients de l'utilisation du RAG pour comprendre les données visuelles#

Voici un aperçu rapide des avantages de l'application des techniques de génération augmentée par récupération pour récupérer et utiliser des informations visuelles :

  • Capacités de résumé améliorées : Les résumés peuvent intégrer des informations issues de visuels (comme les tendances des graphiques ou des éléments d'infographie), et pas seulement du texte.
  • Recherche et récupération plus robustes : Les étapes de récupération peuvent identifier des pages visuelles pertinentes même lorsque des mots-clés ne sont pas présents dans le texte, en utilisant une compréhension basée sur l'image.
  • Support pour les documents numérisés, manuscrits ou basés sur des images : Les pipelines RAG activés par les VLM peuvent traiter du contenu qui serait illisible pour les modèles basés uniquement sur le texte.

Malgré ces avantages, il reste quelques limites à garder à l'esprit lors de l'utilisation du RAG pour travailler avec des données visuelles. Voici quelques-unes des principales :

  • Exigences informatiques élevées : L'analyse des images et du texte utilise plus de mémoire et de puissance de traitement, ce qui peut ralentir les performances ou augmenter les coûts.
  • Préoccupations concernant la confidentialité des données et la sécurité : Les documents visuels, en particulier dans des secteurs comme la santé ou la finance, peuvent contenir des informations sensibles qui compliquent les flux de travail de récupération et de traitement.
  • Temps d'inférence plus longs : Comme le traitement visuel ajoute de la complexité, la génération de réponses peut prendre plus de temps par rapport aux systèmes basés uniquement sur le texte.

Link to this sectionPoints clés#

La génération augmentée par récupération améliore la façon dont les grands modèles de langage répondent aux questions en leur permettant d'extraire des informations pertinentes et à jour à partir de sources externes. Lorsqu'ils sont associés à la vision par ordinateur, ces systèmes peuvent traiter non seulement du texte mais aussi du contenu visuel, tel que des graphiques, des tableaux, des images et des documents numérisés, conduisant à des réponses plus précises et complètes.

Cette approche rend les LLM mieux adaptés aux tâches réelles impliquant des documents complexes. En réunissant la récupération et la compréhension visuelle, ces modèles peuvent interpréter des formats divers plus efficacement et fournir des idées plus utiles dans des contextes pratiques et quotidiens.

Rejoins notre communauté grandissante ! Explore notre dépôt GitHub pour approfondir tes connaissances en IA. Prêt à démarrer tes propres projets de vision par ordinateur ? Consulte nos options de licence. Découvre-en plus sur l'IA dans le secteur de la santé et la vision par ordinateur dans le commerce de détail sur nos pages de solutions !

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique