Le nouveau modèle Segment Anything de Meta AI : Exploration de SAM 3

Le 19 novembre 2025, Meta AI a publié Segment Anything Model 3, également connu sous le nom de SAM 3. Cette dernière version du modèle Segment Anything présente de nouvelles façons de détecter, de segmenter et de suivre des objets dans des images et des vidéos du monde réel à l'aide d'invites textuelles, d'invites visuelles et d'exemples d'images.

Le modèle SAM 3 s'appuie sur SAM et SAM 2 et apporte de nouvelles avancées et fonctionnalités telles que la segmentation des concepts, la détection du vocabulaire ouvert et le suivi vidéo en temps réel. Il peut comprendre des phrases nominales courtes, suivre des objets à travers les images et identifier des concepts fins ou rares que les modèles précédents ne pouvaient pas traiter de manière aussi cohérente.

Dans le cadre de la version SAM 3, Meta a également introduit SAM 3D. Cette suite de modèles de nouvelle génération reconstruit des objets, des scènes et des corps humains complets à partir d'une seule image et étend l'écosystème Segment Anything à la compréhension 3D. Ces ajouts ouvrent la voie à de nouvelles applications dans les domaines de la vision par ordinateur, de la robotique, de l'édition de médias et des flux de travail créatifs.

Dans cet article, nous allons explorer ce qu'est SAM 3, ce qui le différencie de SAM 2, comment le modèle fonctionne et ses applications dans le monde réel. C'est parti !

Qu'est-ce que SAM 3 ? Un coup d'œil sur le modèle 3 de Meta concernant les segments de marché

SAM 3 est un modèle de vision artificielle de pointe capable d'identifier, de séparer et de suivre des objets dans des images et des vidéos sur la base d'instructions simples. Au lieu de s'appuyer sur une liste fixe d'étiquettes, SAM 3 comprend le langage naturel et les indices visuels, ce qui permet de dire facilement au modèle ce que l'on veut trouver.

Par exemple, avec SAM 3, vous pouvez taper une courte phrase comme "bus scolaire jaune" ou "un chat rayé", cliquer sur un objet ou mettre en évidence un exemple dans une image. Le modèle détecte alors chaque objet correspondant et génère des masques de segmentation propres (un contour visuel qui indique exactement quels pixels appartiennent à un objet). SAM 3 peut également suivre ces objets à travers les images vidéo, en les gardant cohérents lorsqu'ils se déplacent.

SAM 3D permet la reconstruction 3D à partir d'une seule image

Une autre partie intéressante de l'annonce de Meta AI est SAM 3D, qui étend le projet Segment Anything à la compréhension 3D. SAM 3D peut prendre une seule image en 2D et reconstruire la forme, la pose ou la structure d'un objet ou d'un corps humain en trois dimensions. En d'autres termes, le modèle peut estimer la façon dont un objet occupe l'espace, même lorsqu'un seul point de vue est disponible.

SAM 3D a été lancé sous la forme de deux modèles différents : SAM 3D Objects, qui reconstruit des objets de la vie quotidienne avec leur géométrie et leur texture, et SAM 3D Body, qui estime la forme et la pose du corps humain à partir d'une seule image. Les deux modèles utilisent les résultats de la segmentation de SAM 3 et génèrent ensuite une représentation 3D qui correspond à l'apparence et à la position de l'objet sur la photo d'origine.

Fig. 1. Exemple d'utilisation de SAM 3D. (Source : créé à l'aide de l'aire de jeu segment anything de Meta AI)

‍

SAM 3 : Nouvelles fonctionnalités pour unifier la détection, la segmentation et le suivi

Voici quelques-unes des principales mises à jour introduites par SAM 3 pour regrouper la détection, la segmentation et le suivi en un seul modèle unifié :

Tâches de segmentation des concepts : Dans SAM et SAM 2, la segmentation des objets dépendait d'invites visuelles telles que des clics ou des boîtes. SAM 3 ajoute la possibilité de segmenter les objets sur la base d'une courte phrase de texte ou d'un exemple de coupe de l'image. Cela signifie que le modèle peut identifier toutes les instances correspondantes sans nécessiter un clic pour chacune d'entre elles.
‍
Invitations textuelles à vocabulaire ouvert : Contrairement aux versions précédentes, SAM 3 peut interpréter de courtes phrases en langage naturel. Cela supprime la nécessité d'une liste d'étiquettes fixe et permet au modèle de travailler avec des concepts plus spécifiques ou moins courants.
‍
Un seul modèle pour la détection, la segmentation et le suivi : SAM 3 unifie la détection, la segmentation et le suivi en un seul modèle, éliminant ainsi le besoin de systèmes séparés pour trouver les objets, générer des masques de segmentation et les suivre sur les images vidéo. Cela crée un flux de travail plus cohérent et rationalisé pour les images et les vidéos, et alors que SAM 2 offrait également certaines capacités de suivi, SAM 3 offre des performances nettement plus solides et plus fiables.
‍
Des résultats plus stables dans les scènes complexes : Comme SAM 3 peut combiner du texte, des images d'exemple et des invites visuelles, il peut traiter des scènes encombrées ou répétitives de manière plus fiable que les versions précédentes qui ne s'appuyaient que sur des clics visuels.

Fig. 2. SAM 3 présente la segmentation des concepts à l'aide d'exemples de textes ou d'images.(Source)

‍

Comparaison entre SAM 3 et SAM 2 et SAM 1

Supposons que vous regardiez une vidéo de safari avec de nombreux animaux différents et que vous souhaitiez détecter et segmenter uniquement les éléphants. À quoi ressemblerait cette tâche dans les différentes versions de SAM ?

Avec SAM, vous devez cliquer manuellement sur chaque éléphant dans chaque image pour générer un masque de segmentation. Il n'y a pas de suivi, donc chaque nouvelle image nécessite de nouveaux clics.

Avec SAM 2, vous pouvez cliquer une fois sur un éléphant, obtenir son masque et le modèle suivra ce même éléphant tout au long de la vidéo. Cependant, vous devrez toujours fournir des clics séparés si vous souhaitez segmenter plusieurs éléphants (objets spécifiques), car SAM 2 ne comprend pas les catégories telles que "éléphant" en soi.

Avec SAM 3, le flux de travail devient beaucoup plus simple. Vous pouvez taper "éléphant" ou dessiner un cadre autour d'un seul éléphant pour donner un exemple, et le modèle trouvera automatiquement tous les éléphants de la vidéo, les segmentera et les suivra de manière cohérente d'une image à l'autre. Le modèle prend toujours en charge les invites de type "clic" et "boîte" utilisées dans les versions précédentes, mais il peut désormais répondre à des invites textuelles et à des images exemplaires, ce que SAM et SAM 2 ne pouvaient pas faire.

Fonctionnement du modèle SAM 3

Examinons maintenant de plus près le fonctionnement du modèle SAM 3 et la manière dont il a été formé.

Vue d'ensemble de l'architecture du modèle SAM 3

SAM 3 rassemble plusieurs composants pour prendre en charge les messages-guides conceptuels et les messages-guides visuels dans un seul système. À la base, le modèle utilise le Meta Perception Encoder, qui est l'encodeur image-texte unifié à source ouverte de Meta.

Cet encodeur peut traiter à la fois les images et les phrases nominales courtes. En d'autres termes, cela permet à SAM 3 de relier les caractéristiques linguistiques et visuelles plus efficacement que les versions précédentes du modèle Segment Anything.

En plus de cet encodeur, SAM 3 comprend un détecteur basé sur la famille DETR de modèles de transformateurs. Ce détecteur identifie les objets dans l'image et aide le système à déterminer quels objets correspondent à l'invite de l'utilisateur.

Plus précisément, pour la segmentation vidéo, SAM 3 utilise un composant de suivi qui s'appuie sur la banque de mémoire et l'encodeur de mémoire de SAM 2. Cela permet au modèle de conserver des informations sur les objets à travers les images afin de pouvoir les réidentifier et les suivre dans le temps.

Fig. 3. Comment fonctionne la segmentation avec des concepts(Source)

‍

Le moteur de données évolutif derrière Segment Anything Model 3

Pour former SAM 3, Meta avait besoin de beaucoup plus de données annotées que ce qui existe actuellement sur Internet. Il est difficile de créer des masques de segmentation et des étiquettes textuelles de haute qualité à grande échelle, et il est lent et coûteux de décrire chaque instance d'un concept dans les images et les vidéos.

Pour résoudre ce problème, Meta a construit un nouveau moteur de données qui combine SAM 3 lui-même, des modèles d'IA supplémentaires et des annotateurs humains travaillant ensemble. Le flux de travail commence par un pipeline de systèmes d'IA, dont SAM 3 et un modèle de sous-titrage basé sur Llama.

Ces systèmes analysent de vastes collections d'images et de vidéos, génèrent des légendes, convertissent ces légendes en étiquettes textuelles et produisent des candidats au masque de segmentation précoce. Des annotateurs humains et artificiels examinent ensuite ces candidats.

Les annotateurs d'IA, formés pour égaler, voire dépasser, la précision humaine dans des tâches telles que le contrôle de la qualité des masques et la vérification de la couverture des concepts, filtrent les cas simples. Les humains n'interviennent que pour les exemples plus difficiles, pour lesquels le modèle peut encore éprouver des difficultés.

‍

Cette approche permet à Meta d'améliorer considérablement la vitesse d'annotation. En laissant les annotateurs de l'IA s'occuper des cas faciles, le pipeline devient environ cinq fois plus rapide pour les invites négatives et 36 % plus rapide pour les invites positives dans les domaines à granularité fine.

Cette efficacité a permis d'étendre l'ensemble de données à plus de quatre millions de concepts uniques. La boucle constante des propositions de l'IA, des corrections humaines et des prédictions actualisées du modèle améliore également la qualité des étiquettes au fil du temps et aide SAM 3 à apprendre un ensemble beaucoup plus large de concepts visuels et textuels.

Amélioration des performances de SAM 3

En ce qui concerne les performances, SAM 3 offre une nette amélioration par rapport aux modèles précédents. Sur le nouveau benchmark SA-Co de Meta, qui évalue la détection et la segmentation de concepts dans un vocabulaire ouvert, SAM 3 atteint environ le double des performances des systèmes précédents, tant pour les images que pour les vidéos.

Il égale ou dépasse également SAM 2 dans les tâches visuelles interactives telles que point-to-mask et mask-to-masklet. Meta fait état de gains supplémentaires sur des évaluations plus difficiles telles que le LVIS zéro-shot (où les modèles doivent reconnaître des catégories rares sans exemples d'entraînement) et le comptage d'objets (mesurant si toutes les instances d'un objet sont détectées), mettant en évidence une plus grande généralisation à travers les domaines.

Outre ces améliorations en termes de précision, SAM 3 est efficace, traitant une image avec plus de 100 objets détectés en environ 30 millisecondes sur un GPU H200 et conservant des vitesses proches du temps réel lors du suivi de plusieurs objets dans une vidéo.

Applications du segment Tout Modèle 3

Maintenant que nous avons une meilleure compréhension de SAM 3, voyons comment il est utilisé dans des applications réelles, du raisonnement avancé guidé par le texte à la recherche scientifique et aux propres produits de Meta.

Traitement de requêtes textuelles complexes à l'aide de SAM 3 Agent

SAM 3 peut également être utilisé comme un outil à l'intérieur d'un modèle de langage multimodal plus large, que Meta appelle l'agent SAM 3. Au lieu de donner à SAM 3 une phrase courte comme "éléphant", l'agent peut décomposer une question plus compliquée en plus petites invites que SAM 3 comprend.

Par exemple, si l'utilisateur demande "Quel objet de l'image est utilisé pour contrôler et guider un cheval ?", l'agent essaie différentes expressions nominales, les envoie à SAM 3 et vérifie quels masques ont un sens. Il continue à affiner jusqu'à ce qu'il trouve le bon objet.

Même sans avoir été entraîné sur des ensembles de données de raisonnement spéciaux, l'agent SAM 3 obtient de bons résultats sur des bancs d'essai conçus pour des requêtes textuelles complexes, tels que ReasonSeg et OmniLabel. Cela montre que SAM 3 peut prendre en charge des systèmes qui ont besoin à la fois d'une compréhension du langage et d'une segmentation visuelle fine.

Applications scientifiques et de conservation de SAM 3

Il est intéressant de noter que SAM 3 est déjà utilisé dans des contextes de recherche où les étiquettes visuelles détaillées sont importantes. Meta a travaillé avec Conservation X Labs et Osa Conservation pour créer SA-FARI, un ensemble de données publiques de surveillance de la faune comprenant plus de 10 000 vidéos de pièges à caméra.

Chaque animal dans chaque image est étiqueté avec des cases et des masques de segmentation, ce qui prendrait énormément de temps à annoter à la main. De même, dans le domaine de la recherche océanographique, SAM 3 est utilisé avec FathomNet et MBARI pour créer des masques de segmentation d'instances pour l'imagerie sous-marine et soutenir de nouveaux critères d'évaluation.

Ces ensembles de données aident les scientifiques à analyser plus efficacement les séquences vidéo et à étudier les animaux et les habitats qu'il est généralement difficile de suivre à l'échelle. Les chercheurs peuvent également utiliser ces ressources pour construire leurs propres modèles d'identification des espèces, d'analyse du comportement et de surveillance écologique automatisée.

Comment Meta déploie SAM 3 dans l'ensemble de ses produits

En plus de ses utilisations dans le domaine de la recherche, SAM 3 alimente également de nouvelles fonctionnalités et de nouveaux cas d'utilisation dans les produits de consommation de Meta. Voici un aperçu de quelques-unes des façons dont il est déjà intégré :

Les montages Instagram : Les créateurs peuvent appliquer des effets à une personne ou à un objet spécifique dans une vidéo sans avoir à effectuer un travail manuel image par image.
‍
L'application Meta AI et meta.ai sur le web : SAM 3 propose de nouveaux outils pour modifier, améliorer et remixer des images et des vidéos.
‍
La fonction "View in Room" de Facebook Marketplace : SAM 3 fonctionne avec SAM 3D pour permettre aux gens de prévisualiser les meubles ou la décoration de leur maison à l'aide d'une seule photo.
‍
Aria Gen 2 lunettes de recherche: La Segment Anything Model 3 permet de segmenter et de suivre les mains et les objets à partir d'une vue à la première personne, ce qui facilite la recherche en réalité augmentée, en robotique et en IA contextuelle.

Principaux points à retenir

SAM 3 est une avancée passionnante pour la segmentation. Il introduit la segmentation des concepts, des invites textuelles à vocabulaire ouvert et un meilleur suivi. Avec des performances nettement plus élevées pour les images et les vidéos, et l'ajout de SAM 3D, la suite de modèles ouvre de nouvelles possibilités pour l'IA de vision, les outils créatifs, la recherche scientifique et les produits du monde réel.

Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur l'IA. Si vous souhaitez créer votre propre projet Vision AI, consultez nos options de licence. Pour en savoir plus sur des applications telles que l 'IA dans le domaine de la santé et l'IA de vision dans le domaine de la vente au détail, consultez nos pages consacrées aux solutions.

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Qu'est-ce que SAM 3 ? Un coup d'œil sur le modèle 3 de Meta concernant les segments de marché

SAM 3D permet la reconstruction 3D à partir d'une seule image

SAM 3 : Nouvelles fonctionnalités pour unifier la détection, la segmentation et le suivi

Comparaison entre SAM 3 et SAM 2 et SAM 1

Fonctionnement du modèle SAM 3

Vue d'ensemble de l'architecture du modèle SAM 3

Le moteur de données évolutif derrière Segment Anything Model 3

Amélioration des performances de SAM 3

Applications du segment Tout Modèle 3

Traitement de requêtes textuelles complexes à l'aide de SAM 3 Agent

Applications scientifiques et de conservation de SAM 3

Comment Meta déploie SAM 3 dans l'ensemble de ses produits

Principaux points à retenir

En savoir plus dans cette catégorie

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Pourquoi les entreprises devraient cesser d'ignorer la vision artificielle dès aujourd'hui

Utilisation de l'apprentissage auto-supervisé pour le débruitage des images

Construisons ensemble l'avenir
de l'IA !

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Qu'est-ce que SAM 3 ? Un coup d'œil sur le modèle 3 de Meta concernant les segments de marché

SAM 3D permet la reconstruction 3D à partir d'une seule image

SAM 3 : Nouvelles fonctionnalités pour unifier la détection, la segmentation et le suivi

Comparaison entre SAM 3 et SAM 2 et SAM 1

Fonctionnement du modèle SAM 3

Vue d'ensemble de l'architecture du modèle SAM 3

Le moteur de données évolutif derrière Segment Anything Model 3

Amélioration des performances de SAM 3

Applications du segment Tout Modèle 3

Traitement de requêtes textuelles complexes à l'aide de SAM 3 Agent

Applications scientifiques et de conservation de SAM 3

Comment Meta déploie SAM 3 dans l'ensemble de ses produits

Principaux points à retenir

En savoir plus dans cette catégorie

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Pourquoi les entreprises devraient cesser d'ignorer la vision artificielle dès aujourd'hui

Utilisation de l'apprentissage auto-supervisé pour le débruitage des images

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !