Voici Florence-2, le modèle de langage visuel de Microsoft qui permet d'améliorer la détection d'objets, la segmentation et la prise de vue zéro avec une grande efficacité.

Voici Florence-2, le modèle de langage visuel de Microsoft qui permet d'améliorer la détection d'objets, la segmentation et la prise de vue zéro avec une grande efficacité.
En juin 2024, Microsoft a présenté Florence-2, un modèle de langage visuel multimodal (VLM) conçu pour gérer un large éventail de tâches, notamment la détection d'objets, la segmentation, le sous-titrage d'images et la mise à la terre. Florence-2 établit une nouvelle référence en matière de performances "zero-shot", ce qui signifie qu'il peut exécuter des tâches sans formation spécifique préalable, et qu'il dispose d'un modèle de plus petite taille que les autres modèles de langage visuel de pointe.
Plus qu'un simple modèle, la polyvalence et les performances améliorées de Florence-2 peuvent avoir un impact significatif sur diverses industries en améliorant la précision et en réduisant la nécessité d'une formation approfondie. Dans cet article, nous allons explorer les caractéristiques innovantes de Florence-2, comparer ses performances à celles d'autres VLM et discuter de ses applications potentielles.
Florence-2 peut traiter une grande variété de tâches dans un cadre unique et unifié. Les capacités impressionnantes du modèle sont en partie dues à son énorme ensemble de données d'entraînement appelé FLD-5B. FLD-5B comprend 5,4 milliards d'annotations sur 126 millions d'images. Cet ensemble de données complet a été créé spécifiquement pour donner à Florence-2 les capacités nécessaires pour traiter un large éventail de tâches visuelles avec une précision et une efficacité élevées.
Voici un aperçu des tâches que Florence-2 prend en charge :
Le modèle prend en charge les tâches basées sur le texte et sur les régions. Des jetons de localisation spéciaux sont ajoutés au vocabulaire du modèle pour les tâches impliquant des régions spécifiques d'une image. Ces jetons aident le modèle à comprendre différentes formes, telles que les rectangles entourant les objets (représentation en boîte), les formes à quatre côtés (représentation en boîte quadruple) et les formes à plusieurs côtés (représentation en polygone). Le modèle est entraîné à l'aide d'une méthode appelée perte d'entropie croisée, qui l'aide à apprendre en comparant ses prédictions aux bonnes réponses et en ajustant ses paramètres internes en conséquence.
L'ensemble de données FLD-5B comprend différents types d'annotations : descriptions textuelles, paires de régions et de textes, et combinaisons de textes, de phrases et de régions. Il a été créé grâce à un processus en deux étapes comprenant la collecte de données et l'annotation. Les images proviennent d'ensembles de données populaires tels que ImageNet-22k, Object 365, Open Images, Conceptual Captions et LAION. Les annotations de l'ensemble de données FLD-5B sont pour la plupart synthétiques, c'est-à-dire qu'elles ont été générées automatiquement plutôt qu'étiquetées manuellement.
Dans un premier temps, des modèles spécialisés dans des tâches spécifiques, telles que la détection ou la segmentation d'objets, ont créé ces annotations. Ensuite, un processus de filtrage et d'amélioration a été utilisé pour s'assurer que les annotations étaient détaillées et précises. Après avoir éliminé tout bruit, l'ensemble de données a fait l'objet d'un raffinement itératif, les résultats de Florence-2 étant utilisés pour mettre à jour et améliorer en permanence les annotations.
L'architecture du modèle de Florence-2 suit une approche d'apprentissage de séquence à séquence. Cela signifie que le modèle traite une séquence d'entrée (comme une image avec une invite textuelle) et génère une séquence de sortie (comme une description ou une étiquette) de manière progressive. Dans le cadre de l'apprentissage séquence par séquence, chaque tâche est traitée comme un problème de traduction : le modèle prend une image en entrée et une invite spécifique à la tâche et génère la sortie correspondante.
Au cœur de l'architecture du modèle se trouve un transformateur codeur-décodeur multi-modalité, qui combine un codeur d'images et un codeur-décodeur multi-modalité. Le codeur d'images, appelé DaViT (Data-efficient Vision Transformer), traite les images d'entrée en les convertissant en jetons visuels - des représentations compactes de l'image qui capturent à la fois des informations spatiales (où se trouvent les choses) et sémantiques (ce que sont les choses). Ces jetons visuels sont ensuite combinés avec des encastrements textuels (représentations du texte), ce qui permet au modèle de fusionner de manière transparente les données textuelles et visuelles.
Florence-2 se distingue des autres modèles de langage visuel par ses capacités impressionnantes de prise de vue zéro. Contrairement à des modèles comme PaliGemma, qui nécessitent un réglage minutieux pour s'adapter à diverses tâches, Florence-2 fonctionne bien dès sa sortie de l'emballage. Florence-2 est également capable de rivaliser avec des modèles plus grands comme GPT-4V et Flamingo, qui ont souvent beaucoup plus de paramètres mais n'atteignent pas toujours les performances de Florence-2. Par exemple, Florence-2 obtient de meilleurs résultats que Kosmos-2 en ce qui concerne le tir à zéro, bien que Kosmos-2 ait plus de deux fois le nombre de paramètres.
Dans les tests de référence, Florence-2 a montré des performances remarquables dans des tâches telles que le sous-titrage COCO et la compréhension des expressions de référence. Elle a surpassé des modèles tels que PolyFormer et UNINEXT dans les tâches de détection et de segmentation d'objets sur l'ensemble de données COCO. Il s'agit d'un choix très compétitif pour les applications réelles où les performances et l'efficacité des ressources sont cruciales.
Florence-2 peut être utilisé dans de nombreux secteurs, tels que le divertissement, l'accessibilité, l'éducation, etc. Voyons quelques exemples pour mieux comprendre.
Lorsque vous êtes sur une plateforme de streaming et que vous essayez de décider ce que vous allez regarder, vous pouvez lire un résumé du film pour vous aider à choisir. Et si la plateforme pouvait également fournir une description détaillée de l'affiche du film ? Florence-2 peut rendre cela possible grâce au sous-titrage d'images, qui génère un texte descriptif pour les images. Florence-2 peut générer des descriptions détaillées des affiches de films, rendant ainsi les plateformes de streaming plus accessibles aux utilisateurs malvoyants. En analysant les éléments visuels d'une affiche, tels que les personnages, les décors et le texte, Florence-2 peut créer des descriptions détaillées qui traduisent le contenu et l'ambiance de l'affiche. L'image ci-dessous montre le niveau de détail que Florence-2 peut fournir dans sa description.
Voici d'autres exemples où le sous-titrage des images peut être utile :
Florence-2 peut également être utilisé pour enrichir les expériences culinaires. Par exemple, un livre de cuisine en ligne pourrait utiliser Florence-2 pour mettre en relief et étiqueter visuellement certaines parties d'une image de recette complexe. L'ancrage visuel permet ici de relier des parties spécifiques de l'image au texte descriptif correspondant. Chaque ingrédient et chaque étape peuvent être étiquetés et expliqués avec précision, ce qui permet aux cuisiniers amateurs de suivre plus facilement la recette et de comprendre le rôle de chaque composant dans le plat.
L'OCR avec traitement par région, qui se concentre sur l'extraction de texte à partir de zones spécifiques d'un document, peut s'avérer utile dans des domaines tels que la comptabilité. Des zones désignées de documents financiers peuvent être analysées pour extraire automatiquement des informations importantes telles que les détails de la transaction, les numéros de compte et les dates d'échéance. En réduisant la nécessité d'une saisie manuelle des données, le système minimise les erreurs et accélère les délais de traitement. Les institutions financières peuvent l'utiliser pour rationaliser des tâches telles que le traitement des factures, le rapprochement des reçus et la compensation des chèques, ce qui permet d'accélérer les transactions et d'améliorer le service à la clientèle.
La segmentation régionale, qui consiste à diviser une image en parties significatives en vue d'une analyse ciblée et d'une inspection détaillée, peut alimenter des applications industrielles qui améliorent la précision et l'efficacité de divers processus. En se concentrant sur des zones spécifiques d'une image, cette technologie permet une inspection et une analyse détaillées des composants et des produits. En ce qui concerne le contrôle de la qualité, elle permet d'identifier les défauts ou les incohérences dans les matériaux, tels que les fissures ou les désalignements, ce qui garantit que seuls des produits de qualité supérieure arrivent sur le marché.
Il améliore également les chaînes d'assemblage automatisées en guidant les bras robotisés vers des pièces spécifiques et en optimisant le placement et l'assemblage des composants. De même, dans la gestion des stocks, elle permet de suivre et de contrôler l'état et l'emplacement des marchandises, ce qui rend la logistique plus efficace et réduit les temps d'arrêt. Dans l'ensemble, la segmentation par région améliore la précision et la productivité, ce qui permet de réduire les coûts et d'améliorer la qualité des produits dans les environnements industriels.
Nous commençons à observer une tendance à l'allègement des modèles d'IA tout en maintenant des performances élevées. Florence-2 marque une avancée majeure en termes de modèles de langage visuel. Il peut prendre en charge diverses tâches telles que la détection d'objets, la segmentation, le sous-titrage d'images et la mise à la terre avec des performances impressionnantes. Malgré sa petite taille, Florence-2 est efficace et multifonctionnel, ce qui le rend extrêmement utile en termes d'applications dans différents secteurs. Des modèles comme Florence-2 offrent davantage de possibilités, élargissant ainsi le potentiel d'innovation de l'IA.
Pour en savoir plus sur l'IA, visitez notre dépôt GitHub et rejoignez notre communauté. Consultez nos pages sur les solutions pour en savoir plus sur les applications de l'IA dans les secteurs de la fabrication et de l'agriculture. 🚀