Explorer SAM 3 : le nouveau Segment Anything Model de Meta AI
Découvre comment SAM 3, le nouveau Segment Anything Model de Meta AI, permet de détecter, segmenter et suivre facilement des objets à travers des images et vidéos du monde réel.

Le 19 novembre 2025, Meta AI a publié le Segment Anything Model 3, également connu sous le nom de SAM 3. Cette dernière version du Segment Anything Model introduit de nouvelles façons de détecter, segmenter et suivre des objets dans des images et des vidéos du monde réel en utilisant des invites textuelles, des invites visuelles et des exemples d'images.
Le modèle SAM 3 s'appuie sur SAM et SAM 2 et apporte de nouvelles avancées et fonctionnalités telles que la segmentation de concepts, la détection à vocabulaire ouvert et le suivi vidéo en temps réel. Il peut comprendre de courtes expressions nominales, suivre des objets à travers les images et identifier des concepts fins ou rares que les modèles précédents ne pouvaient pas gérer de manière aussi cohérente.
Dans le cadre de la sortie de SAM 3, Meta a également introduit SAM 3D. Cette suite de modèles de nouvelle génération reconstruit des objets, des scènes et des corps humains complets à partir d'une seule image et étend l'écosystème Segment Anything à la compréhension 3D. Ces ajouts ouvrent de nouvelles applications dans les domaines de la computer vision, de la robotique, du montage média et des flux de travail créatifs.
Dans cet article, nous explorerons ce qu'est SAM 3, ce qui le distingue de SAM 2, comment le modèle fonctionne et ses applications concrètes. Commençons !
Link to this sectionQu'est-ce que SAM 3 ? Un aperçu du Segment Anything Model 3 de Meta#
SAM 3 est un computer vision model de pointe capable d'identifier, de séparer et de suivre des objets dans des images et des vidéos sur la base d'instructions simples. Au lieu de s'appuyer sur une liste fixe d'étiquettes, SAM 3 comprend le langage naturel et les signaux visuels, ce qui facilite la tâche pour indiquer au modèle ce que tu souhaites trouver.
Par exemple, avec SAM 3, tu peux taper une courte expression comme « bus scolaire jaune » ou « chat rayé », cliquer sur un objet ou surligner un exemple dans une image. Le modèle détectera alors chaque objet correspondant et générera des masques de segmentation propres (un contour visuel qui montre exactement quels pixels appartiennent à un objet). SAM 3 peut également suivre ces objets à travers les images vidéo, en les gardant cohérents au fur et à mesure de leurs mouvements.
Link to this sectionSAM 3D permet la reconstruction 3D à partir d'une seule image#
Un autre aspect passionnant de l'annonce de Meta AI est SAM 3D, qui étend le projet Segment Anything à la 3D understanding. SAM 3D peut prendre une image 2D unique et reconstruire la forme, la pose ou la structure d'un objet ou d'un corps humain en trois dimensions. En d'autres termes, le modèle peut estimer comment quelque chose occupe l'espace même lorsqu'un seul point de vue est disponible.
SAM 3D a été publié sous la forme de deux modèles différents : SAM 3D Objects, qui reconstruit des objets du quotidien avec leur géométrie et leur texture, et SAM 3D Body, qui estime la forme et la pose du corps humain à partir d'une seule image. Les deux modèles utilisent la sortie de segmentation de SAM 3, puis génèrent une représentation 3D qui s'aligne avec l'apparence et la position de l'objet sur la photo originale.

Fig 1. Un exemple d'utilisation de SAM 3D. (Source : Créé en utilisant le terrain de jeu segment anything de Meta AI)
Link to this sectionSAM 3 : Nouvelles fonctionnalités pour unifier la détection, la segmentation et le suivi#
Voici quelques-unes des mises à jour clés introduites par SAM 3 pour réunir la détection, la segmentation et le suivi dans un seul modèle unifié :
- Tâches de segmentation de concepts : Dans SAM et SAM 2, la segmentation d'objets dépendait d'invites visuelles comme des clics ou des boîtes. SAM 3 ajoute la capacité de segmenter des objets sur la base d'une courte phrase textuelle ou d'un exemple recadré de l'image. Cela signifie que le modèle peut identifier toutes les instances correspondantes sans nécessiter un clic pour chacune d'entre elles.
- Invites textuelles à vocabulaire ouvert : Contrairement aux versions précédentes, SAM 3 peut interpréter de courtes phrases en langage naturel. Cela élimine le besoin d'une liste d'étiquettes fixe et permet au modèle de travailler avec des concepts plus spécifiques ou moins courants.
- Un modèle pour la détection, la segmentation et le suivi : SAM 3 unifie la détection, la segmentation et le suivi en un seul modèle, éliminant ainsi le besoin de systèmes séparés pour trouver des objets, générer des masques de segmentation et les suivre à travers les images vidéo. Cela crée un flux de travail plus cohérent et rationalisé pour les images et la vidéo, et bien que SAM 2 offre également certaines capacités de suivi, SAM 3 offre des performances nettement plus solides et plus fiables.
- Résultats plus stables dans des scènes complexes : Comme SAM 3 peut combiner du texte, des images d'exemple et des invites visuelles, il peut gérer des scènes encombrées ou répétitives de manière plus fiable que les versions précédentes qui ne reposaient que sur des clics visuels.

Fig 2. SAM 3 introduit la segmentation de concepts avec des exemples de texte ou d'image. (Source)
Link to this sectionComparaison de SAM 3 vs SAM 2 vs SAM 1#
Disons que tu regardes une vidéo de safari avec beaucoup d'animaux différents, et que tu veux détecter et segmenter uniquement les éléphants. À quoi ressemblerait cette tâche selon les différentes versions de SAM ?
Avec SAM, tu devrais cliquer manuellement sur chaque éléphant dans chaque image pour générer un masque de segmentation. Il n'y a pas de suivi, donc chaque nouvelle image nécessite de nouveaux clics.
Avec SAM 2, tu pourrais cliquer une fois sur un éléphant, obtenir son masque, et le modèle suivrait ce même éléphant à travers la vidéo. Cependant, tu devrais toujours fournir des clics séparés si tu souhaitais segmenter plusieurs éléphants (objets spécifiques), puisque SAM 2 ne comprend pas les catégories comme « éléphant » par lui-même.
Avec SAM 3, le flux de travail devient beaucoup plus simple. Tu peux taper « éléphant » ou dessiner une boîte englobante autour d'un seul éléphant pour fournir un exemple, et le modèle trouvera automatiquement chaque éléphant dans la vidéo, les segmentera et les suivra de manière cohérente à travers les images. Il prend toujours en charge les invites de clic et de boîte utilisées dans les versions précédentes, mais il peut désormais aussi répondre aux invites textuelles et aux images exemplaires, ce qui est quelque chose que SAM et SAM 2 ne pouvaient pas faire.
Link to this sectionComment fonctionne le modèle SAM 3#
Ensuite, examinons de plus près comment fonctionne le modèle SAM 3 et comment il a été entraîné.
Link to this sectionUn aperçu de l'architecture du modèle SAM 3#
SAM 3 réunit plusieurs composants pour prendre en charge les invites de concept et les invites visuelles dans un seul système. À sa base, le modèle utilise le Meta Perception Encoder, qui est l'encodeur image-texte unifié open-source de Meta.
Cet encodeur peut traiter à la fois des images et de courtes expressions nominales. En termes simples, cela permet à SAM 3 de lier le langage et les caractéristiques visuelles plus efficacement que les versions précédentes du Segment Anything Model.
En plus de cet encodeur, SAM 3 inclut un détecteur basé sur la famille de modèles transformer DETR. Ce détecteur identifie les objets dans l'image et aide le système à déterminer quels objets correspondent à l'invite de l'utilisateur.
Plus précisément, pour la segmentation vidéo, SAM 3 utilise un composant de suivi qui s'appuie sur la banque de mémoire et l'encodeur de mémoire de SAM 2. Cela permet au modèle de conserver des informations sur les objets à travers les images afin de pouvoir les réidentifier et les suivre au fil du temps.

Fig 3. Comment fonctionne la segmentation de n'importe quoi avec des concepts (Source : scontent)
Link to this sectionLe moteur de données évolutif derrière Segment Anything Model 3#
Pour entraîner SAM 3, Meta avait besoin de beaucoup plus de données annotées que ce qui existe actuellement sur Internet. Les masques de segmentation et les étiquettes textuelles de haute qualité sont difficiles à créer à grande échelle, et détourer entièrement chaque instance d'un concept dans des images et des vidéos est lent et coûteux.
Pour résoudre ce problème, Meta a construit un nouveau moteur de données qui combine SAM 3 lui-même, des modèles IA supplémentaires et des annotateurs humains travaillant ensemble. Le flux de travail commence par un pipeline de systèmes IA, incluant SAM 3 et un modèle de sous-titrage basé sur Llama.
Ces systèmes scannent de grandes collections d'images et de vidéos, génèrent des sous-titres, convertissent ces sous-titres en étiquettes textuelles et produisent des candidats de masque de segmentation précoces. Des annotateurs humains et IA examinent ensuite ces candidats.
Les annotateurs IA, entraînés à égaler ou même à surpasser la précision humaine sur des tâches comme la vérification de la qualité des masques et la vérification de la couverture des concepts, filtrent les cas simples. Les humains n'interviennent que pour les exemples plus difficiles où le modèle peut encore avoir du mal.

Fig 4. Moteur de données SAM 3 (Source)
Cette approche donne à Meta un coup de pouce majeur en termes de vitesse d'annotation. En laissant les annotateurs IA gérer les cas faciles, le pipeline devient environ cinq fois plus rapide sur les invites négatives et 36 % plus rapide sur les invites positives dans les domaines fins.
Cette efficacité a permis de faire évoluer le jeu de données vers plus de quatre millions de concepts uniques. La boucle constante de propositions d'IA, de corrections humaines et de prédictions de modèles mises à jour améliore également la qualité des étiquettes au fil du temps et aide SAM 3 à apprendre un ensemble beaucoup plus large de concepts visuels et textuels.
Link to this sectionAméliorations des performances de SAM 3#
En ce qui concerne les performances, SAM 3 offre une nette amélioration par rapport aux modèles précédents. Sur le nouveau benchmark SA-Co de Meta, qui évalue la détection et la segmentation de concepts à vocabulaire ouvert, SAM 3 atteint environ deux fois les performances des systèmes précédents, tant pour les images que pour la vidéo.
Il égale ou dépasse également SAM 2 sur les tâches visuelles interactives telles que point-to-mask et mask-to-masklet. Meta signale des gains supplémentaires sur des évaluations plus difficiles comme le zero-shot LVIS (où les modèles doivent reconnaître des catégories rares sans exemples d'entraînement) et le comptage d'objets (mesurant si toutes les instances d'un objet sont détectées), soulignant une meilleure généralisation entre les domaines.
En plus de ces améliorations de précision, SAM 3 est efficace, traitant une image avec plus de 100 objets détectés en environ 30 millisecondes sur un GPU H200 et maintenant des vitesses quasi temps réel lors du suivi de plusieurs objets dans la vidéo.
Link to this sectionApplications du Segment Anything Model 3#
Maintenant que nous avons une meilleure compréhension de SAM 3, passons en revue la façon dont il est utilisé dans des applications réelles, du raisonnement guidé par le texte avancé à la recherche scientifique et aux propres produits de Meta.
Link to this sectionGérer des requêtes textuelles complexes en utilisant SAM 3 Agent#
SAM 3 peut également être utilisé comme outil à l'intérieur d'un modèle de langage multimodal plus large, que Meta appelle le SAM 3 Agent. Au lieu de donner à SAM 3 une courte expression comme « éléphant », l'agent peut diviser une question plus compliquée en invites plus petites que SAM 3 comprend.
Par exemple, si l'utilisateur demande : « Quel objet dans l'image est utilisé pour contrôler et guider un cheval ? », l'agent essaie différentes expressions nominales, les envoie à SAM 3 et vérifie quels masques sont pertinents. Il continue d'affiner jusqu'à ce qu'il trouve le bon objet.
Même sans avoir été entraîné sur des jeux de données de raisonnement spéciaux, le SAM 3 Agent fonctionne bien sur des benchmarks conçus pour des requêtes textuelles complexes, tels que ReasonSeg et OmniLabel. Cela montre que SAM 3 peut prendre en charge des systèmes nécessitant à la fois la compréhension du langage et la segmentation visuelle fine.
Link to this sectionApplications scientifiques et de conservation de SAM 3#
Il est intéressant de noter que SAM 3 est déjà utilisé dans des contextes de recherche où les étiquettes visuelles détaillées sont importantes. Meta a travaillé avec Conservation X Labs et Osa Conservation pour construire SA-FARI, un jeu de données public de surveillance de la faune avec plus de 10 000 vidéos de pièges photographiques.
Chaque animal dans chaque image est étiqueté avec des boîtes et des masques de segmentation, ce qui serait extrêmement fastidieux à annoter à la main. De même, dans la recherche océanique, SAM 3 est utilisé aux côtés de FathomNet et MBARI pour créer des masques de segmentation d'instance pour l'underwater imagery et prendre en charge de nouveaux benchmarks d'évaluation.
De tels jeux de données aident les scientifiques à analyser les séquences vidéo plus efficacement et à étudier les animaux et les habitats qu'il est généralement difficile de suivre à grande échelle. Les chercheurs peuvent également utiliser ces ressources pour construire leurs propres modèles pour l'identification des espèces, l'analyse du comportement et la surveillance écologique automatisée.
Link to this sectionComment Meta déploie SAM 3 à travers ses produits#
En plus de ses utilisations en recherche, SAM 3 alimente également de nouvelles fonctionnalités et cas d'utilisation à travers les produits grand public de Meta. Voici un aperçu de certaines des façons dont il est déjà intégré :
- Modifications Instagram : Les créateurs peuvent appliquer des effets à une personne ou un objet spécifique dans une vidéo sans effectuer de travail manuel image par image.
- Application Meta AI et meta.ai sur le web : SAM 3 prend en charge de nouveaux outils pour modifier, améliorer et remixer des images et des vidéos.
- « View in Room » de Facebook Marketplace : SAM 3 fonctionne avec SAM 3D pour permettre aux gens de prévisualiser des meubles ou de la décoration dans leurs maisons en utilisant une seule photo.
- Aria Gen 2 research glasses : Le Segment Anything Model 3 aide à segmenter et suivre les mains et les objets depuis une vue à la première personne, soutenant la recherche en RA (Réalité Augmentée), en robotique et en IA contextuelle.
Link to this sectionPoints clés#
SAM 3 est une étape passionnante pour la segmentation. Il introduit la segmentation de concepts, les invites textuelles à vocabulaire ouvert et un suivi amélioré. Avec des performances sensiblement plus fortes tant pour les images que pour la vidéo, et l'ajout de SAM 3D, la suite de modèles ouvre de nouvelles possibilités pour l'IA de vision, les outils créatifs, la recherche scientifique et les produits du monde réel.
Rejoins notre communauté et explore notre dépôt GitHub pour en découvrir plus sur l'IA. Si tu cherches à construire ton propre projet d'IA de vision, consulte nos options de licence. Découvre-en plus sur des applications comme l'AI in healthcare et le Vision AI in retail en visitant nos pages de solutions.






