Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

Florence-2 : le dernier modèle vision-langage de Microsoft

Découvre Florence-2, le modèle de langage visuel de Microsoft qui offre une détection d'objets, une segmentation et des performances zero-shot améliorées avec une grande efficacité.

ABAbirami Vina
6 min read
Le modèle vision-langage Florence-2 par Microsoft

En juin 2024, Microsoft a présenté Florence-2, un modèle vision-langage (VLM) multimodal conçu pour gérer un large éventail de tâches, dont la détection d'objets, la segmentation, la génération de légendes d'images et le grounding. Florence-2 établit une nouvelle référence en matière de performance zero-shot, ce qui signifie qu'il peut accomplir des tâches sans entraînement spécifique préalable, tout en bénéficiant d'une taille de modèle plus réduite que les autres modèles vision-langage de pointe.

Plus qu'un simple modèle, la polyvalence et les performances accrues de Florence-2 ont le potentiel d'influencer considérablement divers secteurs en améliorant la précision et en réduisant le besoin d'un entraînement intensif. Dans cet article, nous explorerons les fonctionnalités innovantes de Florence-2, comparerons ses performances avec celles d'autres VLM et discuterons de ses applications potentielles.

Link to this sectionQu'est-ce que Florence-2 ?#

Florence-2 peut gérer une variété de tâches au sein d'un seul framework unifié. Les capacités impressionnantes du modèle sont en partie dues à son immense jeu de données d'entraînement appelé FLD-5B. FLD-5B comprend 5,4 milliards d'annotations sur 126 millions d'images. Ce jeu de données exhaustif a été créé spécifiquement pour doter Florence-2 des capacités nécessaires pour gérer un large éventail de tâches de vision avec une grande précision et efficacité.

Voici un aperçu plus détaillé des tâches prises en charge par Florence-2 :

  • Détection d'objets : il peut identifier et localiser des objets dans des images avec une grande précision.
  • Segmentation : cette tâche implique de diviser une image en segments significatifs pour une analyse et une interprétation plus faciles.
  • Légendage d'images : Florence-2 est capable de générer des légendes descriptives pour des images, apportant contexte et détails.
  • Grounding visuel : le modèle peut associer des expressions ou des mots spécifiques dans une légende aux zones correspondantes de l'image.
  • Performance zero-shot : il peut accomplir des tâches sans entraînement spécifique.

Diagramme de la façon dont Florence-2 a été entraîné

Fig 1. Comprendre comment Florence-2 a été entraîné.

Le modèle prend en charge à la fois les tâches basées sur le texte et sur les régions. Des jetons de localisation spéciaux sont ajoutés au vocabulaire du modèle pour les tâches impliquant des zones spécifiques d'une image. Ces jetons aident le modèle à comprendre différentes formes, telles que des rectangles autour des objets (représentation en boîte), des formes à quatre côtés (représentation en quad box) et des formes à plusieurs côtés (représentation en polygone). Le modèle est entraîné en utilisant une méthode appelée cross-entropy loss, qui l'aide à apprendre en comparant ses prédictions aux réponses correctes et en ajustant ses paramètres internes en conséquence.

Link to this sectionCréation du jeu de données FLD-5B#

Le jeu de données FLD-5B inclut différents types d'annotations : des descriptions textuelles, des paires de régions et de textes, ainsi que des combinaisons de textes, d'expressions et de régions. Il a été créé via un processus en deux étapes impliquant la collecte et l'annotation de données. Les images proviennent de jeux de données populaires comme ImageNet-22k, Object 365, Open Images, Conceptual Captions et LAION. Les annotations du jeu de données FLD-5B sont principalement synthétiques, ce qui signifie qu'elles ont été générées automatiquement plutôt qu'étiquetées manuellement.

Diagramme de la création du dataset FLD-5B

Fig 2. Création du jeu de données FLD-5B.

Initialement, des modèles spécialisés dans des tâches précises, comme la détection d'objets ou la segmentation, ont créé ces annotations. Ensuite, un processus de filtration et d'amélioration a été utilisé pour garantir que les annotations étaient détaillées et précises. Après avoir supprimé tout bruit, le jeu de données a subi un affinement itératif, où les sorties de Florence-2 ont été utilisées pour mettre à jour et améliorer continuellement les annotations.

Link to this sectionComprendre l'architecture du modèle Florence-2#

L'architecture du modèle Florence-2 suit une approche d'apprentissage séquence-à-séquence. Cela signifie que le modèle traite une séquence d'entrée (comme une image avec un prompt textuel) et génère une séquence de sortie (comme une description ou une étiquette) étape par étape. Dans le cadre séquence-à-séquence, chaque tâche est traitée comme un problème de traduction : le modèle prend une image d'entrée et un prompt spécifique à la tâche, puis génère la sortie correspondante.

Diagramme de l'architecture du modèle vision-langage Florence-2

Fig 3. Architecture du modèle vision-langage Florence-2.

Au cœur de l'architecture se trouve un transformer encodeur-décodeur multimodal, qui combine un encodeur d'image et un encodeur-décodeur multimodal. L'encodeur d'image, appelé DaViT (Data-efficient Vision Transformer), traite les images d'entrée en les convertissant en embeddings de jetons visuels - des représentations compactes de l'image qui capturent à la fois des informations spatiales (où sont les choses) et sémantiques (ce que sont les choses). Ces jetons visuels sont ensuite combinés avec des embeddings textuels (représentations du texte), permettant au modèle de fusionner de manière fluide les données textuelles et visuelles.

Link to this sectionComparaison de Florence-2 avec d'autres VLM#

Florence-2 se distingue des autres modèles vision-langage par ses capacités impressionnantes en zero-shot. Contrairement à des modèles comme PaliGemma, qui reposent sur un fine-tuning approfondi pour s'adapter à diverses tâches, Florence-2 fonctionne très bien dès le départ. De plus, Florence-2 est capable de rivaliser avec des modèles plus grands comme GPT-4V et Flamingo, qui possèdent souvent beaucoup plus de paramètres sans pour autant égaler systématiquement les performances de Florence-2. Par exemple, Florence-2 obtient de meilleurs résultats en zero-shot que Kosmos-2, bien que Kosmos-2 possède plus de deux fois plus de paramètres.

Dans les tests de benchmark, Florence-2 a démontré des performances remarquables sur des tâches comme le légendage COCO et la compréhension d'expressions référentielles. Il a surpassé des modèles comme PolyFormer et UNINEXT dans les tâches de détection d'objets et de segmentation sur le jeu de données COCO. C'est un choix hautement compétitif pour les applications réelles où la performance et l'efficacité des ressources sont cruciales.

Link to this sectionApplications de Florence-2#

Florence-2 peut être utilisé dans de nombreux secteurs différents, comme le divertissement, l'accessibilité, l'éducation, etc. Passons en revue quelques exemples pour mieux comprendre.

Link to this sectionApplications du légendage d'images#

Lorsque tu es sur une plateforme de streaming et que tu essaies de décider quoi regarder, tu lis peut-être le résumé d'un film pour t'aider à choisir. Et si la plateforme pouvait aussi fournir une description détaillée de l'affiche du film ? Florence-2 peut rendre cela possible grâce au légendage d'images, qui génère du texte descriptif pour les images. Florence-2 peut créer des descriptions détaillées d'affiches de films, rendant les plateformes de streaming plus inclusives pour les utilisateurs malvoyants. En analysant les éléments visuels d'une affiche, tels que les personnages, le décor et le texte, Florence-2 peut créer des descriptions détaillées qui transmettent le contenu et l'ambiance de l'affiche. L'image ci-dessous montre le niveau de détail que Florence-2 peut fournir dans sa description.

Exemple d'une légende d'image générée par Florence-2

Fig 4. Un exemple de légende d'image générée par Florence-2.

Voici d'autres exemples où le légendage d'images peut être utile :

  • E-commerce : le légendage d'images peut fournir des descriptions détaillées d'images de produits, aidant les clients à mieux comprendre les caractéristiques et les détails des produits.
  • Voyage et tourisme : il peut fournir des descriptions détaillées de monuments et d'attractions dans les guides et applications de voyage.
  • Éducation : le légendage d'images peut étiqueter et décrire des images et des schémas éducatifs, facilitant ainsi l'enseignement et l'apprentissage.
  • Immobilier : il peut fournir des descriptions détaillées d'images de propriétés qui mettent en avant les caractéristiques et les équipements pour les acheteurs potentiels.

Link to this sectionUtiliser le grounding visuel en cuisinant#

Florence-2 peut également être utilisé pour enrichir les expériences culinaires. Par exemple, un livre de cuisine en ligne pourrait utiliser Florence-2 pour ancrer visuellement et étiqueter des parties d'une image de recette complexe. Le grounding visuel aide ici en liant des parties spécifiques de l'image au texte descriptif correspondant. Chaque ingrédient et chaque étape peuvent être étiquetés et expliqués précisément, facilitant ainsi la tâche des cuisiniers amateurs pour suivre la recette et comprendre le rôle de chaque composant dans le plat.

Exemple de mise en relation visuelle (visual grounding) avec Florence-2

Fig 5. Un exemple de grounding visuel utilisant Florence-2.

Link to this sectionOCR basé sur les régions pour les documents financiers#

L'OCR avec traitement par région, qui se concentre sur l'extraction de texte à partir de zones spécifiques d'un document, peut s'avérer utile dans des domaines comme la comptabilité. Des zones désignées de documents financiers peuvent être analysées pour extraire automatiquement des informations importantes telles que les détails de transaction, les numéros de compte et les dates d'échéance. En réduisant le besoin de saisie manuelle, cela minimise les erreurs et accélère les temps de traitement. Les institutions financières peuvent l'utiliser pour rationaliser des tâches comme le traitement des factures, le rapprochement des reçus et la compensation des chèques, ce qui conduit à des transactions plus rapides et à un meilleur service client.

Exemple d'OCR avec région utilisant Florence-2

Fig 6. Un exemple d'extraction OCR par région utilisant Florence-2.

Link to this sectionSegmentation basée sur les régions dans les applications industrielles#

La segmentation basée sur les régions, qui implique de diviser une image en parties significatives pour une analyse ciblée et une inspection détaillée, peut alimenter des applications industrielles qui améliorent la précision et l'efficacité dans divers processus. En se concentrant sur des zones spécifiques dans une image, cette technologie permet une inspection et une analyse détaillées des composants et des produits. En ce qui concerne le contrôle qualité, elle peut identifier des défauts ou des incohérences dans les matériaux, comme des fissures ou des désalignements, garantissant que seuls des produits de haute qualité atteignent le marché.

Exemple de segmentation basée sur les régions avec Florence-2

Fig 7. Un exemple de segmentation basée sur les régions utilisant Florence-2.

Elle améliore également les lignes d'assemblage automatisées en guidant les bras robotisés vers des pièces spécifiques et en optimisant le placement et l'assemblage des composants. De même, dans la gestion des stocks, elle aide à suivre et surveiller l'état et l'emplacement des marchandises, menant à une logistique plus efficace et une réduction des temps d'arrêt. Dans l'ensemble, la segmentation basée sur les régions augmente la précision et la productivité, ce qui génère des économies de coûts et une meilleure qualité de produit dans les environnements industriels.

Link to this sectionPoints clés#

Nous commençons à observer une tendance où les modèles d'IA deviennent plus légers tout en conservant des performances élevées. Florence-2 marque une avancée majeure en termes de modèles vision-langage. Il peut gérer diverses tâches comme la détection d'objets, la segmentation, le légendage d'images et le grounding avec une performance zero-shot impressionnante. Malgré sa taille plus petite, Florence-2 est efficace et multifonctionnel, ce qui le rend extrêmement utile pour des applications dans différents secteurs. Des modèles comme Florence-2 ouvrent de nouvelles possibilités, élargissant le potentiel pour les innovations en IA.

Explore davantage l'IA en consultant notre dépôt GitHub et en rejoignant notre communauté. Découvre nos pages de solutions pour lire sur les applications de l'IA dans la fabrication et l'agriculture. 🚀

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique