Google PaliGemma 2 : aperçu des modèles VLM avancés
Rejoins-nous pour examiner de plus près les nouveaux modèles vision-langage de Google : PaliGemma 2. Ces modèles peuvent aider à comprendre et à analyser à la fois les images et le texte.

Le 5 décembre 2024, Google a présenté PaliGemma 2, la dernière version de son modèle vision-langage (VLM) de pointe. PaliGemma 2 est conçu pour gérer des tâches combinant images et texte, comme la génération de légendes, la réponse à des questions visuelles et la détection d'objets sur des visuels.
S'appuyant sur le PaliGemma original, qui était déjà un outil puissant pour le sous-titrage multilingue et la reconnaissance d'objets, PaliGemma 2 apporte plusieurs améliorations clés. Celles-ci incluent des modèles de plus grande taille, la prise en charge d'images à plus haute résolution et de meilleures performances sur des tâches visuelles complexes. Ces mises à jour le rendent encore plus flexible et efficace pour un large éventail d'utilisations.
Dans cet article, nous examinerons de plus près PaliGemma 2, notamment son fonctionnement, ses fonctionnalités clés et les applications où il excelle. Commençons !
Link to this sectionDe Gemma 2 à PaliGemma 2#
PaliGemma 2 repose sur deux technologies clés : l'encodeur de vision SigLIP et le modèle de langage Gemma 2. L'encodeur SigLIP traite les données visuelles, comme les images ou les vidéos, et les décompose en caractéristiques que le modèle peut analyser. Pendant ce temps, Gemma 2 gère le texte, permettant au modèle de comprendre et de générer un langage multilingue. Ensemble, ils forment un VLM, conçu pour interpréter et connecter les informations visuelles et textuelles de manière transparente.
Ce qui fait de PaliGemma 2 un grand pas en avant, c'est son évolutivité et sa polyvalence. Contrairement à la version originale, PaliGemma 2 est disponible en trois tailles : 3 milliards (3B), 10 milliards (10B) et 28 milliards (28B) de paramètres. Ces paramètres sont comme les réglages internes du modèle, l'aidant à apprendre et à traiter les données efficacement. Il prend également en charge différentes résolutions d'image (par exemple, 224 x 224 pixels pour des tâches rapides et 896 x 896 pour une analyse détaillée), ce qui le rend adaptable à diverses applications.

Fig 1. Un aperçu de PaliGemma 2.
L'intégration des capacités linguistiques avancées de Gemma 2 avec le traitement d'image de SigLIP rend PaliGemma 2 beaucoup plus intelligent. Il peut gérer des tâches comme :
- Légender des images ou des vidéos : Le modèle peut générer des descriptions textuelles détaillées de visuels, ce qui est utile pour créer automatiquement des légendes.
- Réponse aux questions visuelles : PaliGemma 2 peut répondre à des questions basées sur des images, comme l'identification d'objets, de personnes ou d'actions dans une scène.
- Reconnaissance d'objets : Il identifie et étiquette les objets dans une image, comme distinguer un chat, une table ou une voiture sur une photo.
PaliGemma 2 va au-delà du traitement séparé des images et du texte ; il les réunit de manière significative. Par exemple, il peut comprendre les relations dans une scène, comme reconnaître que « Le chat est assis sur la table », ou identifier des objets tout en ajoutant du contexte, comme reconnaître un monument célèbre.
Link to this sectionComment fonctionnent les modèles VLM PaliGemma 2 de Google#
Ensuite, nous parcourrons un exemple utilisant le graphique montré dans l'image ci-dessous pour mieux comprendre comment PaliGemma 2 traite les données visuelles et textuelles. Disons que tu télécharges ce graphique et que tu demandes au modèle : « Que représente ce graphique ? »

Fig 2. Un exemple des capacités de PaliGemma 2.
Le processus commence avec l'encodeur de vision SigLIP de PaliGemma 2 pour analyser les images et extraire les caractéristiques clés. Pour un graphique, cela inclut l'identification d'éléments tels que les axes, les points de données et les étiquettes. L'encodeur est formé pour capturer à la fois des modèles larges et des détails fins. Il utilise également la reconnaissance optique de caractères (OCR) pour détecter et traiter tout texte intégré dans l'image. Ces caractéristiques visuelles sont converties en jetons, qui sont des représentations numériques que le modèle peut traiter. Ces jetons sont ensuite ajustés à l'aide d'une couche de projection linéaire, une technique qui garantit qu'ils peuvent être combinés de manière transparente avec des données textuelles.
En même temps, le modèle de langage Gemma 2 traite la requête associée pour déterminer son sens et son intention. Le texte de la requête est converti en jetons, et ceux-ci sont combinés avec les jetons visuels de SigLIP pour créer une représentation multimodale, un format unifié qui lie les données visuelles et textuelles.
En utilisant cette représentation intégrée, PaliGemma 2 génère une réponse étape par étape grâce au décodage autorégressif, une méthode où le modèle prédit une partie de la réponse à la fois en fonction du contexte qu'il a déjà traité.
Link to this sectionCapacités clés de PaliGemma 2#
Maintenant que nous avons compris son fonctionnement, explorons les fonctionnalités clés qui font de PaliGemma 2 un modèle vision-langage fiable :
- Flexibilité du réglage fin : Il s'adapte facilement à des jeux de données et à des tâches spécifiques, obtenant de bons résultats dans des applications comme le sous-titrage d'images, le raisonnement spatial et l'imagerie médicale.
- Données d'entraînement diverses : Entraîné sur des jeux de données comme WebLI et OpenImages, il lui confère de solides capacités de reconnaissance d'objets et des capacités de sortie multilingues.
- Intégration OCR : Inclut la reconnaissance optique de caractères pour extraire et interpréter le texte des images, ce qui le rend idéal pour l'analyse de documents et d'autres tâches basées sur le texte.
- Sorties multilingues : Génère des légendes et des réponses dans plusieurs langues, idéal pour les applications mondiales.
- Intégration avec des outils : Il est compatible avec des frameworks comme Hugging Face Transformers, PyTorch et Keras, permettant un déploiement et une expérimentation faciles.
Link to this sectionComparaison entre PaliGemma 2 et PaliGemma : Qu'est-ce qui a été amélioré ?#
Jeter un coup d'œil à l'architecture de la première version de PaliGemma est un bon moyen de voir les améliorations de PaliGemma 2. L'un des changements les plus notables est le remplacement du modèle de langage original Gemma par Gemma 2, qui apporte des améliorations substantielles tant en termes de performances que d'efficacité.
Gemma 2, disponible en tailles de 9B et 27B paramètres, a été conçu pour offrir une précision et une vitesse de premier ordre tout en réduisant les coûts de déploiement. Il y parvient grâce à une architecture repensée et optimisée pour l'efficacité de l'inférence sur diverses configurations matérielles, des puissants GPU aux configurations plus accessibles.

Fig 3. Retour sur la première version de PaliGemma 2.
En conséquence, PaliGemma 2 est un modèle hautement précis. La version 10B de PaliGemma 2 atteint un score NES (Non-Entailment Sentence) plus faible de 20,3, contre 34,3 pour le modèle original, ce qui signifie moins d'erreurs factuelles dans ses résultats. Ces avancées rendent PaliGemma 2 plus évolutif, précis et adaptable à un plus large éventail d'applications, du sous-titrage détaillé à la réponse aux questions visuelles.
Link to this sectionApplications de PaliGemma 2 : Utilisations concrètes des modèles VLM#
PaliGemma 2 a le potentiel de redéfinir les industries en combinant de manière transparente la compréhension visuelle et linguistique. Par exemple, en ce qui concerne l'accessibilité, il peut générer des descriptions détaillées d'objets, de scènes et de relations spatiales, offrant une aide cruciale aux personnes malvoyantes. Cette capacité aide les utilisateurs à mieux comprendre leur environnement, offrant une plus grande autonomie pour les tâches quotidiennes.

Fig 4. PaliGemma 2 peut rendre le monde plus accessible.
En plus de l'accessibilité, PaliGemma 2 a un impact dans diverses industries, notamment :
- E-commerce : Le modèle améliore la catégorisation des produits en analysant et en décrivant les articles dans les images, ce qui simplifie la gestion des stocks et améliore l'expérience de recherche pour les utilisateurs.
- Santé : Il aide les professionnels de santé en interprétant l'imagerie médicale, comme les rayons X et les IRM, parallèlement aux notes cliniques pour fournir des diagnostics plus précis et éclairés.
- Éducation : PaliGemma 2 aide les enseignants à créer du matériel pédagogique descriptif et accessible en générant des légendes et en fournissant des informations contextuelles pour les images.
- Création de contenu : Le modèle automatise le processus de génération de légendes et de descriptions visuelles pour le contenu multimédia, faisant gagner du temps aux créateurs.
Link to this sectionEssaie par toi-même : PaliGemma 2#
Pour essayer PaliGemma 2, tu peux commencer par la démo interactive de Hugging Face. Elle te permet d'explorer ses capacités dans des tâches comme le sous-titrage d'images et la réponse aux questions visuelles. Télécharge simplement une image et pose des questions au modèle à son sujet ou demande une description de la scène.

Fig 5. Une démo de PaliGemma 2 (Source : Hugging Face).
Si tu souhaites aller plus loin, voici comment tu peux passer à la pratique :
- Modèles pré-entraînés : Tu peux accéder aux modèles pré-entraînés et au code à partir de plateformes comme Hugging Face et Kaggle. Ces ressources fournissent tout ce dont tu as besoin pour commencer à travailler avec le modèle.
- Notebooks : Il existe une documentation complète et des exemples de notebooks pour te familiariser avec PaliGemma 2. Tu peux commencer avec des exemples d'inférence et expérimenter le réglage fin du modèle sur ton propre jeu de données pour des tâches spécifiques.
- Intégrations : PaliGemma 2 est compatible avec des frameworks largement utilisés comme Hugging Face Transformers, Keras, PyTorch, JAX et Gemma.cpp, te permettant de l'intégrer facilement dans tes flux de travail existants.
Link to this sectionAvantages et inconvénients de PaliGemma 2 de Google#
Maintenant que tu as compris comment débuter avec PaliGemma 2, examinons de plus près ses points forts et ses inconvénients à garder à l'esprit lors de l'utilisation de ces modèles.
Voici ce qui fait de PaliGemma 2 un modèle vision-langage remarquable :
- Gains d'efficacité : En tirant parti de l'architecture optimisée de Gemma 2, PaliGemma 2 offre des performances élevées tout en minimisant les coûts de déploiement.
- Fonctionnalités de sécurité améliorées : PaliGemma 2 inclut des améliorations de sécurité significatives dans son processus d'entraînement, comme un filtrage robuste des données de pré-entraînement pour réduire les biais et une évaluation rigoureuse par rapport aux benchmarks de sécurité.
- Faible latence pour les configurations plus petites : Le modèle 3B offre des temps d'inférence plus rapides, ce qui le rend adapté aux cas d'utilisation où la vitesse est critique, comme les recommandations de produits e-commerce ou les systèmes de support en direct.
Pendant ce temps, voici quelques domaines où PaliGemma 2 peut rencontrer des limites :
- Latence : Bien que puissants, les modèles plus grands peuvent faire face à des problèmes de latence, surtout lorsqu'ils sont déployés pour des tâches nécessitant des réponses immédiates, comme les systèmes d'IA interactifs en temps réel.
- Dépendance aux grands jeux de données : Les performances de PaliGemma 2 sont étroitement liées à la qualité et à la diversité de ses jeux de données d'entraînement, ce qui pourrait limiter son efficacité dans des domaines sous-représentés ou des langues non incluses dans les données d'entraînement.
- Besoins élevés en ressources : Malgré les optimisations, les versions 10B et 28B de paramètres exigent une puissance de calcul importante, ce qui les rend moins accessibles aux petites organisations disposant de ressources limitées.
Link to this sectionPoints clés#
PaliGemma 2 est une avancée fascinante dans la modélisation vision-langage, offrant une évolutivité améliorée, une flexibilité de réglage fin et une précision accrue. Il peut servir d'outil précieux pour des applications allant des solutions d'accessibilité et de l'e-commerce aux diagnostics de santé et à l'éducation.
Bien qu'il présente des limites, telles que les exigences informatiques et la dépendance à des données de haute qualité, ses points forts en font un choix pratique pour s'attaquer à des tâches complexes qui intègrent des données visuelles et textuelles. PaliGemma 2 peut fournir une base solide aux chercheurs et aux développeurs pour explorer et étendre le potentiel de l'IA dans les applications multimodales.
Participe à la conversation sur l'IA en consultant notre dépôt GitHub et notre communauté. Découvre comment l'IA fait des progrès dans l'agriculture et la santé ! 🚀






