Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

PaliGemma 2 de Google : aperçu des modèles VLM avancés

Abirami Vina

4 min de lecture

6 décembre 2024

Rejoignez-nous pour examiner de plus près les nouveaux modèles de langage de vision de Google : PaliGemma 2. Ces modèles peuvent aider à comprendre et à analyser à la fois les images et le texte.

Le 5 décembre 2024, Google a présenté PaliGemma 2, la dernière version de son modèle de vision-langage (VLM) de pointe. PaliGemma 2 est conçu pour gérer des tâches combinant images et texte, telles que la génération de légendes, la réponse à des questions visuelles et la détection d'objets dans des visuels. 

S'appuyant sur le PaliGemma original, qui était déjà un outil puissant pour la légende multilingue et la reconnaissance d'objets, PaliGemma 2 apporte plusieurs améliorations clés. Il s'agit notamment de modèles de plus grande taille, de la prise en charge d'images à plus haute résolution et de meilleures performances sur des tâches visuelles complexes. Ces mises à niveau le rendent encore plus flexible et efficace pour un large éventail d'utilisations.

Dans cet article, nous examinerons de plus près PaliGemma 2, notamment son fonctionnement, ses principales caractéristiques et les applications dans lesquelles il excelle. Commençons !

De Gemma 2 à PaliGemma 2

PaliGemma 2 repose sur deux technologies clés : l'encodeur de vision SigLIP et le modèle de langage Gemma 2. L'encodeur SigLIP traite les données visuelles, comme les images ou les vidéos, et les décompose en caractéristiques que le modèle peut analyser. Pendant ce temps, Gemma 2 gère le texte, permettant au modèle de comprendre et de générer un langage multilingue. Ensemble, ils forment un VLM, conçu pour interpréter et connecter de manière transparente les informations visuelles et textuelles.

Ce qui fait de PaliGemma 2 une avancée majeure, c'est son évolutivité et sa polyvalence. Contrairement à la version originale, PaliGemma 2 est disponible en trois tailles - 3 milliards (3B), 10 milliards (10B) et 28 milliards (28B) de paramètres. Ces paramètres sont comme les paramètres internes du modèle, l'aidant à apprendre et à traiter efficacement les données. Il prend également en charge différentes résolutions d'image (par exemple, 224 x 224 pixels pour les tâches rapides et 896 x 896 pour l'analyse détaillée), ce qui le rend adaptable à diverses applications.

Fig. 1. Aperçu de PaliGemma 2.

L'intégration des capacités linguistiques avancées de Gemma 2 au traitement d'image de SigLIP rend PaliGemma 2 considérablement plus intelligent. Il peut gérer des tâches telles que :

  • Légender des images ou des vidéos: Le modèle peut générer des descriptions textuelles détaillées des visuels, ce qui le rend utile pour la création automatique de légendes.
  • Question-réponse visuel : PaliGemma 2 peut répondre à des questions basées sur des images, par exemple identifier des objets, des personnes ou des actions dans une scène.
  • Reconnaissance d'objets: Elle identifie et étiquette les objets dans une image, comme distinguer un chat, une table ou une voiture sur une photo.

PaliGemma 2 va au-delà du traitement séparé des images et du texte : il les rassemble de manière significative. Par exemple, il peut comprendre les relations dans une scène, comme reconnaître que « Le chat est assis sur la table », ou identifier des objets tout en ajoutant du contexte, comme reconnaître un monument célèbre. 

Comment fonctionnent les modèles VLM PaliGemma 2 de Google

Ensuite, nous allons passer en revue un exemple en utilisant le graphique illustré dans l'image ci-dessous pour mieux comprendre comment PaliGemma 2 traite les données visuelles et textuelles. Supposons que vous téléchargiez ce graphique et que vous demandiez au modèle : « Que représente ce graphique ? »

Fig. 2. Un exemple des capacités de PaliGemma 2.

Le processus commence avec l'encodeur de vision SigLIP de PaliGemma 2 pour analyser les images et extraire les principales caractéristiques. Pour un graphique, cela inclut l'identification d'éléments tels que les axes, les points de données et les étiquettes. L'encodeur est formé pour capturer à la fois les tendances générales et les détails précis. Il utilise également la reconnaissance optique de caractères (OCR) pour détecter et traiter tout texte intégré dans l'image. Ces caractéristiques visuelles sont converties en jetons, qui sont des représentations numériques que le modèle peut traiter. Ces jetons sont ensuite ajustés à l'aide d'une couche de projection linéaire, une technique qui garantit qu'ils peuvent être combinés de manière transparente avec des données textuelles.

Parallèlement, le modèle de langage Gemma 2 traite la requête d'accompagnement pour déterminer sa signification et son intention. Le texte de la requête est converti en jetons, et ceux-ci sont combinés avec les jetons visuels de SigLIP pour créer une représentation multimodale, un format unifié qui relie les données visuelles et textuelles. 

En utilisant cette représentation intégrée, PaliGemma 2 génère une réponse étape par étape grâce au décodage autorégressif, une méthode où le modèle prédit une partie de la réponse à la fois en fonction du contexte qu'il a déjà traité. 

Principales capacités de PaliGemma 2

Maintenant que nous avons compris comment cela fonctionne, explorons les principales caractéristiques qui font de PaliGemma 2 un modèle de vision-langage fiable :

  • Flexibilité de réglage fin : S'adapte facilement à des ensembles de données et des tâches spécifiques, offrant de bonnes performances dans des applications telles que la légende d'images, le raisonnement spatial et l'imagerie médicale.
  • Données d'entraînement diversifiées : Entraîné sur des ensembles de données tels que WebLI et OpenImages, ce qui lui confère de fortes capacités de reconnaissance d'objets et des capacités de sortie multilingues.
  • Intégration OCR : Inclut la reconnaissance optique de caractères pour extraire et interpréter le texte des images, ce qui le rend idéal pour l'analyse de documents et d'autres tâches textuelles.
  • Sorties multilingues : Génère des légendes et des réponses dans plusieurs langues, idéal pour les applications mondiales.
  • Intégration avec des outils : Il est compatible avec des frameworks tels que Hugging Face Transformers, PyTorch et Keras, ce qui permet un déploiement et une expérimentation faciles.

Comparaison de PaliGemma 2 et PaliGemma : Quelles sont les améliorations ?

Examiner l'architecture de la première version de PaliGemma est un bon moyen de voir les améliorations de PaliGemma 2. L'un des changements les plus notables est le remplacement du modèle de langage Gemma original par Gemma 2, ce qui apporte des améliorations substantielles en termes de performances et d'efficacité. 

Gemma 2, disponible en tailles de paramètres 9B et 27B, a été conçu pour offrir une précision et une vitesse de pointe tout en réduisant les coûts de déploiement. Il y parvient grâce à une architecture repensée, optimisée pour l'efficacité de l'inférence sur diverses configurations matérielles, des GPU puissants aux configurations plus accessibles.

Fig 3. Retour sur la première version de PaliGemma 2.

Par conséquent, PaliGemma 2 est un modèle très précis. La version 10B de PaliGemma 2 obtient un score NES (Non-Entailment Sentence) plus faible de 20,3, contre 34,3 pour le modèle original, ce qui signifie moins d'erreurs factuelles dans ses sorties. Ces avancées rendent PaliGemma 2 plus évolutif, précis et adaptable à un éventail plus large d'applications, de la légende détaillée à la réponse aux questions visuelles.

Applications de PaliGemma 2 : Utilisations concrètes des modèles VLM

PaliGemma 2 a le potentiel de redéfinir les industries en combinant de manière transparente la compréhension visuelle et linguistique. Par exemple, en ce qui concerne l'accessibilité, il peut générer des descriptions détaillées d'objets, de scènes et de relations spatiales, fournissant une assistance cruciale aux personnes malvoyantes. Cette capacité aide les utilisateurs à mieux comprendre leur environnement, offrant une plus grande autonomie dans les tâches quotidiennes. 

Fig 4. PaliGemma 2 peut rendre le monde plus accessible.

Outre l'accessibilité, PaliGemma 2 a un impact dans divers secteurs, notamment :

  • E-commerce : Le modèle améliore la catégorisation des produits en analysant et en décrivant les articles dans les images, ce qui simplifie la gestion des stocks et améliore l'expérience de recherche pour les utilisateurs.
  • Santé : Il aide les professionnels de la santé en interprétant l'imagerie médicale, telle que les radiographies et les IRM, ainsi que les notes cliniques, afin de fournir des diagnostics plus précis et éclairés.
  • Éducation : PaliGemma 2 aide les éducateurs à créer du matériel d'apprentissage descriptif et accessible en générant des légendes et en fournissant des informations contextuelles pour les images.
  • Création de contenu : Le modèle automatise le processus de génération de légendes et de descriptions visuelles pour le contenu multimédia, ce qui fait gagner du temps aux créateurs.

Essayez-le vous-même : PaliGemma 2

Pour essayer PaliGemma 2, vous pouvez commencer avec la démo interactive de Hugging Face. Elle vous permet d'explorer ses capacités dans des tâches telles que la légende d'images et la réponse aux questions visuelles. Il vous suffit de télécharger une image et de poser des questions au modèle à ce sujet ou de demander une description de la scène.

Fig. 5. Une démo de PaliGemma 2 (Source : huggingface).

Si vous souhaitez approfondir, voici comment vous pouvez vous lancer :

  • Modèles pré-entraînés : Vous pouvez accéder aux modèles pré-entraînés et au code à partir de plateformes comme Hugging Face et Kaggle. Ces ressources fournissent tout ce dont vous avez besoin pour commencer à travailler avec le modèle.
  • Notebooks : Il existe une documentation complète et des exemples de notebooks pour vous familiariser avec PaliGemma 2. Vous pouvez commencer par des exemples d'inférence et expérimenter l'affinage du modèle sur votre propre ensemble de données pour des tâches spécifiques.
  • Intégrations : PaliGemma 2 est compatible avec les frameworks largement utilisés comme Hugging Face Transformers, Keras, PyTorch, JAX et Gemma.cpp, ce qui vous permet de l'intégrer sans effort dans vos flux de travail existants.

Avantages et inconvénients de PaliGemma 2 de Google

Maintenant que vous avez compris comment démarrer avec PaliGemma 2, examinons de plus près ses principaux atouts et inconvénients à garder à l'esprit lors de l'utilisation de ces modèles. 

Voici ce qui distingue PaliGemma 2 en tant que modèle de vision-langage :

  • Gains d'efficacité : Tirant parti de l'architecture optimisée de Gemma 2, PaliGemma 2 offre des performances élevées tout en minimisant les coûts de déploiement.
  • Fonctionnalités de sécurité améliorées : PaliGemma 2 comprend d'importantes améliorations de sécurité dans son processus d'entraînement, telles qu'un filtrage robuste des données de pré-entraînement pour réduire les biais et une évaluation rigoureuse par rapport aux benchmarks de sécurité.
  • Faible latence pour les configurations plus petites : Le modèle 3B offre des temps d'inférence plus rapides, ce qui le rend adapté aux cas d'utilisation où la vitesse est essentielle, tels que les recommandations de produits de commerce électronique ou les systèmes de support en direct.

En attendant, voici quelques domaines où PaliGemma 2 peut rencontrer des limitations :

  • Latence : Bien que puissants, les modèles plus grands peuvent être confrontés à des problèmes de latence, en particulier lorsqu'ils sont déployés pour des tâches nécessitant des réponses immédiates, telles que les systèmes d'IA interactifs en temps réel.
  • Dépendance à de vastes ensembles de données : Les performances de PaliGemma 2 sont étroitement liées à la qualité et à la diversité de ses ensembles de données d'entraînement, ce qui pourrait limiter son efficacité dans les domaines sous-représentés ou les langues non incluses dans les données d'entraînement.
  • Besoins élevés en ressources : Malgré les optimisations, les versions à 10 et 28 milliards de paramètres exigent une puissance de calcul importante, ce qui les rend moins accessibles aux petites organisations disposant de ressources limitées.

Principaux points à retenir

PaliGemma 2 est une avancée fascinante dans la modélisation vision-langage, offrant une évolutivité, une flexibilité de réglage fin et une précision améliorées. Il peut servir d'outil précieux pour des applications allant des solutions d'accessibilité et du commerce électronique aux diagnostics de santé et à l'éducation. 

Bien qu'il présente des limitations, telles que les exigences de calcul et la dépendance à des données de haute qualité, ses atouts en font un choix pratique pour aborder des tâches complexes qui intègrent des données visuelles et textuelles. PaliGemma 2 peut fournir une base solide aux chercheurs et aux développeurs pour explorer et étendre le potentiel de l'IA dans les applications multimodales.

Participez à la conversation sur l'IA en consultant notre dépôt GitHub et notre communauté. Découvrez comment l'IA fait des progrès dans l'agriculture et les soins de santé ! 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers