En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Rejoignez-nous pour plonger dans le Segment Anything Model 2 (SAM 2) de Meta AI et comprendre les applications en temps réel auxquelles il peut être utilisé dans divers secteurs.
Le 29 juillet 2024, Meta AI a publié la deuxième version de son Segment Anything Model, SAM 2. Le nouveau modèle peut identifier avec précision les pixels appartenant à un objet cible dans les images et les vidéos ! Le plus intéressant est que le modèle est capable de suivre un objet de manière cohérente dans toutes les images d'une vidéo en temps réel. SAM 2 ouvre des possibilités intéressantes pour le montage vidéo, les expériences de réalité mixte et l'annotation plus rapide des données visuelles pour l'entraînement des systèmes de vision par ordinateur.
S'appuyant sur le succès du SAM original, qui a été utilisé dans des domaines tels que les sciences marines, l'imagerie satellite et la médecine, SAM 2 s'attaque à des défis tels que les objets en mouvement rapide et les changements d'apparence. Son exactitude et son efficacité améliorées en font un outil polyvalent pour un large éventail d'applications. Dans cet article, nous nous concentrerons sur les domaines d'application de SAM 2 et sur son importance pour la communauté de l'IA.
Qu'est-ce que SAM 2 ?
Le Segment Anything Model 2 est un modèle de fondation avancé qui prend en charge la segmentation visuelle guidée par invites ou PVS dans les images et les vidéos. La PVS est une technique où un modèle peut segmenter ou identifier différentes parties d'une image ou d'une vidéo en fonction d'invites ou d'entrées spécifiques données par l'utilisateur. Ces invites peuvent prendre la forme de clics, de boîtes ou de masques qui mettent en évidence la zone d'intérêt. Le modèle génère ensuite un masque de segmentation qui délimite la zone spécifiée.
L'architecture de SAM 2 s'appuie sur le SAM original en étendant la segmentation d'image à la segmentation vidéo. Elle est dotée d'un décodeur de masque léger qui utilise les données d'image et les invites pour créer des masques de segmentation. Pour les vidéos, SAM 2 introduit un système de mémoire qui l'aide à se souvenir des informations des images précédentes, garantissant ainsi un suivi précis dans le temps. Le système de mémoire comprend des composants qui stockent et rappellent les détails sur les objets en cours de segmentation. SAM 2 peut également gérer les occlusions, suivre les objets à travers plusieurs images et gérer les invites ambiguës en générant plusieurs masques possibles. L'architecture avancée de SAM 2 le rend très performant dans les environnements visuels statiques et dynamiques.
Plus précisément, en ce qui concerne la segmentation vidéo, SAM 2 atteint une plus grande précision avec trois fois moins d'interactions utilisateur par rapport aux méthodes précédentes. Pour la segmentation d'image, SAM 2 surpasse le Segment Anything Model (SAM) original, étant six fois plus rapide et plus précis. Cette amélioration a été présentée dans le document de recherche SAM 2 sur 37 ensembles de données différents, dont 23 sur lesquels SAM avait été précédemment testé.
Il est intéressant de noter que SAM 2 de Meta AI a été développé en créant le plus grand jeu de données de segmentation vidéo à ce jour, le jeu de données SA-V. Ce vaste ensemble de données comprend plus de 50 000 vidéos et 35,5 millions de masques de segmentation, et a été collecté grâce aux contributions interactives des utilisateurs. Les annotateurs ont fourni des invites et des corrections pour aider le modèle à apprendre à partir d'une grande variété de scénarios et de types d'objets.
Applications de Segment Anything Model 2
Grâce à ses capacités avancées en matière de segmentation d'images et de vidéos, SAM 2 peut être utilisé dans divers secteurs. Explorons quelques-unes de ces applications.
SAM 2 permet la réalité augmentée (RA) et la réalité virtuelle (RV)
Le nouveau modèle de segmentation de Meta AI peut être utilisé pour les applications de réalité augmentée (RA) et de réalité virtuelle (RV). Par exemple, SAM 2 peut identifier et segmenter avec précision des objets du monde réel et rendre l'interaction avec des objets virtuels plus réaliste. Il peut être utile dans divers domaines tels que les jeux, l'éducation et la formation, où une interaction réaliste entre les éléments virtuels et réels est essentielle.
Avec des appareils comme les lunettes AR qui deviennent de plus en plus sophistiqués, les capacités de SAM 2 pourraient bientôt y être intégrées. Imaginez que vous mettez des lunettes et que vous regardez autour de votre salon. Lorsque vos lunettes segmentent et remarquent la gamelle d'eau de votre chien, elles pourraient vous rappeler de la remplir, comme le montre l'image ci-dessous. Ou, si vous cuisinez une nouvelle recette, les lunettes pourraient identifier les ingrédients sur votre comptoir et fournir des instructions et des conseils étape par étape, améliorant ainsi votre expérience culinaire et vous assurant d'avoir tous les articles nécessaires à portée de main.
Fig 2. SAM 2 pourrait bientôt être utilisé dans les lunettes AR.
Imagerie sonar avec Segment Anything Model 2
Les recherches utilisant le modèle SAM ont montré qu'il peut être appliqué dans des domaines spécialisés tels que l'imagerie sonar. L'imagerie sonar présente des défis uniques en raison de sa faible résolution, de ses niveaux de bruit élevés et des formes complexes des objets dans les images. En affinant SAM pour les images sonar, les chercheurs ont démontré sa capacité à segmenter avec précision divers objets sous-marins tels que les débris marins, les formations géologiques et d'autres éléments d'intérêt. Une imagerie sous-marine précise et fiable peut être utilisée dans la recherche marine, l'archéologie sous-marine, la gestion des pêches et la surveillance pour des tâches telles que la cartographie des habitats, la découverte d'artefacts et la détection des menaces.
Fig 3. Un exemple d'utilisation de SAM affiné pour la segmentation d'images sonar.
Étant donné que SAM 2 s'appuie sur de nombreux défis auxquels SAM est confronté et les améliore, il a le potentiel d'améliorer encore l'analyse de l'imagerie sonar. Ses capacités de segmentation précises peuvent aider dans diverses applications marines, y compris la recherche scientifique et la pêche. Par exemple, SAM 2 peut efficacement délimiter les structures sous-marines, détecter les débris marins et identifier les objets dans les images sonar à vision prospective, contribuant ainsi à une exploration et une surveillance sous-marines plus précises et efficaces.
Voici les avantages potentiels de l'utilisation de SAM 2 pour analyser l'imagerie sonar :
Efficacité : Réduit le temps et les efforts nécessaires à la segmentation manuelle, permettant aux professionnels de se concentrer davantage sur l'analyse et la prise de décision.
Cohérence : Fournit des résultats de segmentation cohérents et reproductibles, essentiels pour la recherche et la surveillance marines à grande échelle.
Polyvalence : Capable de traiter une large gamme d’images sonar, ce qui le rend utile pour diverses applications dans les sciences et l’industrie marines.
En intégrant SAM 2 dans les processus d'imagerie sonar, l'industrie maritime peut atteindre une efficacité, une précision et une fiabilité accrues dans l'exploration et l'analyse sous-marines, ce qui conduit à de meilleurs résultats dans la recherche marine.
Utilisation de SAM 2 dans les véhicules autonomes
Une autre application de SAM 2 se trouve dans les véhicules autonomes. SAM 2 peut identifier avec précision des objets tels que les piétons, les autres véhicules, les panneaux de signalisation et les obstacles en temps réel. Le niveau de détail que SAM 2 peut fournir est essentiel pour prendre des décisions de navigation sûre et d'évitement des collisions. En traitant les données visuelles avec précision, SAM 2 aide à créer une carte détaillée et fiable de l'environnement et conduit à une meilleure prise de décision.
Fig. 4. Utilisation de la segmentation pour comprendre le trafic.
La capacité de SAM 2 à bien fonctionner dans différentes conditions d'éclairage, les changements météorologiques et les environnements dynamiques le rend fiable pour les véhicules autonomes. Qu'il s'agisse d'une rue urbaine animée ou d'une autoroute brumeuse, SAM 2 peut identifier et segmenter les objets de manière cohérente et précise afin que le véhicule puisse réagir correctement à diverses situations.
Cependant, il y a quelques limites à garder à l'esprit. Pour les objets complexes et rapides, SAM 2 peut parfois manquer des détails fins, et ses prédictions peuvent devenir instables d'une image à l'autre. De plus, SAM 2 peut parfois confondre plusieurs objets d'apparence similaire dans des scènes encombrées. Ces défis expliquent pourquoi l'intégration de capteurs et de technologies supplémentaires est essentielle dans les applications de conduite autonome.
Surveillance environnementale à l'aide de SAM 2
La surveillance environnementale à l'aide de la vision par ordinateur peut être délicate, en particulier lorsqu'il y a un manque de données annotées, mais c'est aussi ce qui en fait une application intéressante pour SAM 2. SAM 2 peut être utilisé pour suivre et analyser les changements dans les paysages naturels en segmentant et en identifiant avec précision diverses caractéristiques environnementales telles que les forêts, les plans d'eau, les zones urbaines et les terres agricoles à partir d'images satellites ou de drones. Plus précisément, une segmentation précise aide à surveiller la déforestation, l'urbanisation et les changements dans l'utilisation des terres au fil du temps afin de fournir des données précieuses pour la conservation de l'environnement et la planification.
Voici quelques-uns des avantages de l'utilisation d'un modèle comme SAM 2 pour analyser les changements environnementaux au fil du temps :
Détection précoce : Identifie les premiers signes de dégradation environnementale, permettant des interventions rapides pour prévenir d'autres dommages.
Gestion des ressources : Aide à gérer efficacement les ressources naturelles en fournissant des informations détaillées sur l’état de diverses caractéristiques environnementales.
Conservation de la biodiversité : Aide au suivi de la faune et à la surveillance de la biodiversité, contribuant aux efforts de conservation et à la protection des espèces menacées.
Intervention en cas de catastrophe : Aide à évaluer l'impact des catastrophes naturelles telles que les inondations, les feux de forêt et les ouragans, permettant une intervention rapide et efficace en cas de catastrophe et une planification de la reprise.
Montage vidéo avec SAM 2 : Essayez par vous-même
La démo Segment Anything 2 est un excellent moyen de tester le modèle sur une vidéo. En utilisant les capacités PVS de SAM 2, nous avons pris une ancienne vidéo YouTube d'Ultralytics et avons pu segmenter trois objets ou personnes dans la vidéo et les pixelliser. Traditionnellement, supprimer trois individus d'une vidéo de ce type prendrait du temps, serait fastidieux et nécessiterait un masquage manuel image par image. Cependant, SAM 2 simplifie ce processus. En quelques clics sur la démo, vous pouvez protéger l'identité de trois objets d'intérêt en quelques secondes.
Fig 6. Essai de la démo SAM 2.
La démo vous permet également d'essayer différents effets visuels, comme mettre en évidence les objets que vous sélectionnez pour le suivi et effacer les objets suivis. Si vous avez aimé la démo et que vous êtes prêt à commencer à innover avec SAM 2, consultez la page de documentation du modèle Ultralytics SAM 2 pour obtenir des instructions détaillées sur la façon de manipuler le modèle. Explorez les fonctionnalités, les étapes d'installation et les exemples pour profiter pleinement du potentiel de SAM 2 dans vos projets !
Conclusion
Segment Anything Model 2 (SAM 2) de Meta AI transforme la segmentation vidéo et d'image. Alors que des tâches telles que le suivi d'objets s'améliorent, nous découvrons de nouvelles opportunités dans le montage vidéo, la réalité mixte, la recherche scientifique et l'imagerie médicale. En facilitant les tâches complexes et en accélérant les annotations, SAM 2 est prêt à devenir un outil important pour la communauté de l'IA. Alors que nous continuons à explorer et à innover avec des modèles comme SAM 2, nous pouvons anticiper des applications et des avancées encore plus révolutionnaires dans divers domaines !
Apprenez-en davantage sur l'IA en explorant notre dépôt GitHub et en rejoignant notre communauté. Consultez nos pages de solutions pour obtenir des informations détaillées sur l'IA dans les secteurs de la fabrication et de la santé. 🚀