Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Comprendre les modèles de langage de vision et leurs applications

Abirami Vina

6 min de lecture

5 juillet 2024

Découvrez les modèles de langage de vision, leur fonctionnement et leurs diverses applications dans l'IA. Découvrez comment ces modèles combinent les capacités visuelles et linguistiques.

Dans un article précédent, nous avons exploré comment GPT-4o peut comprendre et décrire des images en utilisant des mots. Nous observons également cette capacité dans d'autres nouveaux modèles comme Google Gemini et Claude 3. Aujourd'hui, nous approfondissons ce concept pour expliquer comment fonctionnent les modèles de langage de vision et comment ils combinent les données visuelles et textuelles. 

Ces modèles peuvent être utilisés pour effectuer une série de tâches impressionnantes, telles que la génération de légendes détaillées pour les photos, la réponse à des questions sur les images et même la création de nouveaux contenus visuels basés sur des descriptions textuelles. En intégrant de manière transparente les informations visuelles et linguistiques, les modèles de langage de vision transforment notre façon d'interagir avec la technologie et de comprendre le monde qui nous entoure.

Comment fonctionnent les modèles de langage de vision

Avant d'examiner où les modèles de langage de vision (VLM) peuvent être utilisés, comprenons ce qu'ils sont et comment ils fonctionnent. Les VLM sont des modèles d'IA avancés qui combinent les capacités des modèles de vision et de langage pour traiter à la fois les images et le texte. Ces modèles prennent des photos avec leurs descriptions textuelles et apprennent à relier les deux. La partie vision du modèle capture les détails des images, tandis que la partie langage comprend le texte. Ce travail d'équipe permet aux VLM de comprendre et d'analyser à la fois les images et le texte.

Voici les principales capacités des modèles de langage de vision :

  • Légendes d'images : Génération de texte descriptif basé sur le contenu des images.
  • Réponse visuelle aux questions (VQA) : Répondre aux questions relatives au contenu d'une image.
  • Génération Texte-Image : Création d’images basées sur des descriptions textuelles.
  • Récupération image-texte : Trouver des images pertinentes pour une requête textuelle donnée et vice versa.
  • Création de contenu multimodal : Combiner des images et du texte pour générer de nouveaux contenus.
  • Compréhension de la scène etDétection d'objets : Identification et catégorisation des objets et des détails dans une image.
__wf_reserved_inherit
Fig 1. Un exemple des capacités d'un modèle de langage de vision.

Ensuite, explorons les architectures VLM courantes et les techniques d'apprentissage utilisées par des modèles bien connus tels que CLIP, SimVLM et VisualGPT.

Apprentissage contrastif

L'apprentissage contrastif est une technique qui aide les modèles à apprendre en comparant les différences entre les points de données. Il calcule le degré de similarité ou de différence entre les instances et vise à minimiser la perte contrastive, qui mesure ces différences. Il est particulièrement utile dans l'apprentissage semi-supervisé, où un petit ensemble d'exemples étiquetés guide le modèle pour étiqueter de nouvelles données non vues. Par exemple, pour comprendre à quoi ressemble un chat, le modèle le compare à des images de chats similaires et à des images de chiens. En identifiant des caractéristiques telles que la structure faciale, la taille du corps et la fourrure, les techniques d'apprentissage contrastif peuvent différencier un chat d'un chien.

__wf_reserved_inherit
Fig. 2. Fonctionnement de l'apprentissage contrastif.

CLIP est un modèle Vision-Langage qui utilise l'apprentissage contrastif pour faire correspondre des descriptions textuelles avec des images. Il fonctionne en trois étapes simples. Premièrement, il entraîne les parties du modèle qui comprennent à la fois le texte et les images. Deuxièmement, il convertit les catégories d'un ensemble de données en descriptions textuelles. Troisièmement, il identifie la description la plus appropriée pour une image donnée. Grâce à cette méthode, le modèle CLIP peut faire des prédictions précises même pour les tâches pour lesquelles il n'a pas été spécifiquement entraîné.

PrefixLM

PrefixLM est une technique de traitement du langage naturel (NLP) utilisée pour l'entraînement de modèles. Elle commence par une partie d'une phrase (un préfixe) et apprend à prédire le mot suivant. Dans les modèles Vision-Langage, PrefixLM aide le modèle à prédire les mots suivants en se basant sur une image et un extrait de texte donné. Il utilise un Vision Transformer (ViT), qui divise une image en petits patches, chacun représentant une partie de l'image, et les traite en séquence. 

__wf_reserved_inherit
Fig 3. Un exemple d'entraînement d'un VLM qui utilise la technique PrefixLM.

SimVLM est un VLM qui utilise la technique d'apprentissage PrefixLM. Il utilise une architecture Transformer plus simple que les modèles précédents, mais obtient de meilleurs résultats dans divers tests. Son architecture de modèle implique d'apprendre à associer des images à des préfixes de texte à l'aide d'un encodeur Transformer, puis de générer du texte à l'aide d'un décodeur Transformer. 

Fusion multimodale avec attention croisée

La fusion multimodale avec attention croisée est une technique qui améliore la capacité d'un modèle de langage de vision pré-entraîné à comprendre et à traiter des données visuelles. Elle fonctionne en ajoutant des couches d'attention croisée au modèle, ce qui lui permet de prêter attention à la fois aux informations visuelles et textuelles. 

Voici comment cela fonctionne : 

  • Les principaux objets d'une image sont identifiés et mis en évidence. 
  • Les objets mis en évidence sont traités par un encodeur visuel, traduisant les informations visuelles dans un format que le modèle peut comprendre. 
  • L'information visuelle est transmise à un décodeur, qui interprète l'image en utilisant la connaissance du modèle de langage pré-entraîné.

VisualGPT est un bon exemple de modèle qui utilise cette technique. Il comprend une fonctionnalité spéciale appelée unité d'activation auto-résurrectrice (SRAU), qui aide le modèle à éviter un problème courant appelé disparition des gradients. La disparition des gradients peut entraîner la perte d'informations importantes pendant l'entraînement, mais SRAU maintient la performance du modèle à un niveau élevé. 

__wf_reserved_inherit
Fig 4. Architecture du modèle VisualGPT.

Applications des modèles de langage de vision

Les modèles de langage de vision ont un impact sur divers secteurs. De l'amélioration des plateformes de commerce électronique à la facilitation de l'accès à Internet, les utilisations potentielles des VLMs sont passionnantes. Explorons quelques-unes de ces applications.

Générer des descriptions de produits

Lorsque vous faites des achats en ligne, vous voyez des descriptions détaillées de chaque produit, mais la création de ces descriptions peut prendre beaucoup de temps. Les VLM rationalisent ce processus en automatisant la génération de ces descriptions. Les détaillants en ligne peuvent générer directement des descriptions détaillées et précises à partir d'images de produits à l'aide de modèles de langage de vision. 

Des descriptions de produits de haute qualité aident les moteurs de recherche à identifier les produits en fonction d'attributs spécifiques mentionnés dans la description. Par exemple, une description contenant « manches longues » et « encolure en coton » aide les clients à trouver plus facilement une « chemise en coton à manches longues ». Cela aide également les clients à trouver rapidement ce qu'ils veulent et, par conséquent, augmente les ventes et la satisfaction des clients.

__wf_reserved_inherit
Fig 5. Un exemple de description de produit générée par l'IA. 

Les modèles d'IA générative, comme BLIP-2, sont des exemples de VLM sophistiqués capables de prédire les attributs d'un produit directement à partir d'images. BLIP-2 utilise plusieurs composants pour comprendre et décrire avec précision les produits de commerce électronique. Il commence par traiter et comprendre les aspects visuels du produit à l'aide d'un encodeur d'image. Ensuite, un transformateur d'interrogation interprète ces informations visuelles dans le contexte de questions ou de tâches spécifiques. Enfin, un grand modèle linguistique génère des descriptions de produits détaillées et précises.

Rendre l'internet plus accessible

Les modèles de langage de vision peuvent rendre Internet plus accessible grâce à la légende d'images, en particulier pour les personnes malvoyantes. Traditionnellement, les utilisateurs doivent saisir des descriptions du contenu visuel sur les sites web et les médias sociaux. Par exemple, lorsque vous publiez sur Instagram, vous pouvez ajouter un texte alternatif pour les lecteurs d'écran. Les VLMs, cependant, peuvent automatiser ce processus. 

Lorsqu'un VLM voit une image d'un chat assis sur un canapé, il peut générer la légende « Un chat assis sur un canapé », ce qui rend la scène claire pour les utilisateurs malvoyants. Les VLM utilisent des techniques telles que le few-shot prompting, où ils apprennent à partir de quelques exemples de paires image-légende, et le chain-of-thought prompting, qui les aide à décomposer logiquement des scènes complexes. Ces techniques rendent les légendes générées plus cohérentes et détaillées.

__wf_reserved_inherit
Fig 6. Utilisation de l'IA pour générer des légendes d'images.

À cet effet, la fonctionnalité "Obtenir des descriptions d'images de Google" de Chrome génère automatiquement des descriptions pour les images sans texte alternatif. Bien que ces descriptions générées par l'IA ne soient pas aussi détaillées que celles rédigées par des humains, elles fournissent tout de même des informations précieuses.

Avantages et limites des modèles de langage de vision

Les modèles de langage de vision (VLMs) offrent de nombreux avantages en combinant des données visuelles et textuelles. Voici quelques-uns des principaux avantages :

  • Meilleure interaction homme-machine : Permettre aux systèmes de comprendre et de répondre aux entrées visuelles et textuelles, améliorant ainsi les assistants virtuels, les chatbots et la robotique.
  • Diagnostics et analyses avancés : Aider le secteur médical en analysant des images et en générant des descriptions, en soutenant les professionnels de la santé avec des deuxièmes avis et la détection d’anomalies.
  • Narration interactive et divertissement : Générez des récits captivants en combinant des entrées visuelles et textuelles afin d'améliorer l'expérience utilisateur dans les jeux et la réalité virtuelle.

Malgré leurs impressionnantes capacités, les modèles de langage visuel présentent également certaines limites. Voici quelques éléments à garder à l'esprit en ce qui concerne les VLMs :

  • Exigences computationnelles élevées : L'entraînement et le déploiement des VLM nécessitent d'importantes ressources de calcul, ce qui les rend coûteux et moins accessibles.
  • Dépendance aux données et biais : Les VLM peuvent produire des résultats biaisés s’ils sont entraînés sur des ensembles de données non diversifiés ou biaisés, ce qui peut perpétuer les stéréotypes et la désinformation.
  • Compréhension limitée du contexte : Les VLM peuvent avoir du mal à comprendre la situation dans son ensemble ou le contexte et à générer des sorties trop simplifiées ou incorrectes.

Principaux points à retenir

Les modèles de langage de vision ont un potentiel incroyable dans de nombreux domaines, tels que le commerce électronique et les soins de santé. En combinant des données visuelles et textuelles, ils peuvent stimuler l'innovation et transformer les industries. Cependant, il est essentiel de développer ces technologies de manière responsable et éthique pour garantir qu'elles soient utilisées équitablement. À mesure que les VLMs continuent d'évoluer, ils amélioreront des tâches telles que la recherche basée sur l'image et les technologies d'assistance. 

Pour continuer à vous informer sur l'IA, connectez-vous à notre communauté ! Explorez notre dépôt GitHub pour voir comment nous utilisons l'IA pour créer des solutions innovantes dans des secteurs tels que la fabrication et les soins de santé. 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers