Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Mises à jour de la recherche en IA de Meta FAIR : SAM 2.1 et CoTracker3

Abirami Vina

5 min de lecture

4 novembre 2024

Explorez les derniers modèles d'IA de Meta FAIR, SAM 2.1 et CoTracker3, offrant des capacités avancées de segmentation et de suivi pour diverses applications réelles.

L'intelligence artificielle (IA) est un domaine de recherche qui a récemment suscité beaucoup d'enthousiasme et d'énergie, avec de nouvelles innovations et des percées apparaissant plus rapidement que jamais. Au cours des dernières semaines, l'équipe de recherche fondamentale en IA (FAIR) de Meta a dévoilé un ensemble d'outils et de modèles visant à relever les défis dans différents domaines de l'IA. Ces versions comprennent des mises à jour qui pourraient avoir un impact sur des domaines aussi divers que les soins de santé, la robotique et la réalité augmentée.

Par exemple, le modèle SAM 2.1 mis à jour améliore la segmentation d'objets, ce qui facilite l'identification et la séparation précises des objets dans les images et les vidéos. Pendant ce temps, CoTracker3 se concentre sur le suivi des points, aidant à garder une trace des points dans les trames vidéo, même lorsque les objets se déplacent ou sont partiellement bloqués. 

Meta a également introduit des versions plus légères et plus rapides de son modèle de langage Llama pour une utilisation efficace sur l'appareil, ainsi qu'une nouvelle technologie de détection tactile pour la robotique. Dans cet article, nous allons décomposer ces dernières versions de Meta FAIR, en examinant ce que chaque outil offre. Commençons !

Modèle de segmentation amélioré de Meta : SAM 2.1

La segmentation d'objets, une tâche clé de la vision par ordinateur, permet d'identifier et de séparer les différents objets d'une image ou d'une vidéo, ce qui facilite l'analyse de zones d'intérêt spécifiques. Depuis sa sortie, le Segment Anything Model 2 (SAM 2) de Meta a été utilisé pour la segmentation d'objets dans différents domaines tels que l'imagerie médicale et la météorologie. S'appuyant sur les commentaires de la communauté, Meta a maintenant introduit SAM 2.1, une version améliorée conçue pour relever certains des défis rencontrés avec le modèle original et offrir une performance globale plus robuste.

__wf_reserved_inherit
Fig 1. Évaluation comparative des performances du modèle SAM 2.1.

SAM 2.1 inclut des mises à jour pour mieux gérer les objets visuellement similaires et plus petits, grâce à de nouvelles techniques d'augmentation de données. Il améliore également la façon dont le modèle gère l'occlusion (lorsque des parties d'un objet sont cachées de la vue) en l'entraînant sur des séquences vidéo plus longues, ce qui lui permet de "se souvenir" et de reconnaître les objets au fil du temps, même s'ils sont temporairement bloqués. Par exemple, si quelqu'un filme une vidéo d'une personne marchant derrière un arbre, SAM 2.1 peut suivre la personne lorsqu'elle réapparaît de l'autre côté, en utilisant sa mémoire de la position de l'objet et de son mouvement pour combler les lacunes lorsque la vue est brièvement interrompue.

Parallèlement à ces mises à jour, Meta a publié la SAM 2 Developer Suite, fournissant un code de formation open source et une infrastructure de démonstration complète afin que les développeurs puissent affiner SAM 2.1 avec leurs propres données et l'intégrer dans une gamme d'applications.

CoTracker3 : Le modèle de suivi de Meta, ses caractéristiques et ses mises à jour

Une autre tâche intéressante de la vision par ordinateur est le suivi de points. Il s'agit de suivre des points ou des caractéristiques spécifiques à travers plusieurs images d'une vidéo. Prenons l'exemple d'une vidéo d'un cycliste roulant sur une piste : le suivi de points permet au modèle de suivre les points sur le cycliste, comme le casque ou les roues, même s'ils sont cachés par des obstacles pendant un moment.

Le suivi de points est essentiel pour des applications telles que la reconstruction 3D, la robotique et le montage vidéo. Les modèles traditionnels reposent souvent sur des configurations complexes et de vastes ensembles de données synthétiques, ce qui limite leur efficacité lorsqu'ils sont appliqués à des scénarios du monde réel. 

Le modèle de suivi CoTracker3 de Meta répond à ces limitations en simplifiant l'architecture du modèle. Il introduit également une technique de pseudo-étiquetage qui permet au modèle d'apprendre à partir de vidéos réelles non annotées, ce qui rend CoTracker3 plus efficace et évolutif pour une utilisation pratique.

__wf_reserved_inherit
Fig 2. Comparaison de CoTracker3 avec d'autres modèles de suivi.

L'une des caractéristiques qui distingue CoTracker3 est sa capacité à bien gérer les occlusions. Grâce à l'attention croisée, une technique qui permet au modèle de partager des informations entre plusieurs points suivis, CoTracker3 peut déduire les positions des points cachés en référençant les points visibles. Ce faisant, CoTracker3 est conçu pour être très efficace dans les environnements dynamiques, par exemple pour suivre une personne dans une scène bondée. 

CoTracker3 offre également des modes en ligne et hors ligne. Le mode en ligne permet un suivi en temps réel. Le mode hors ligne, quant à lui, peut être utilisé pour un suivi plus complet sur l'ensemble des séquences vidéo, ce qui est idéal pour des tâches telles que le montage vidéo ou l'animation

Autres mises à jour et recherches de Meta FAIR

Bien que SAM 2.1 et CoTracker3 présentent les dernières avancées de Meta en matière de vision par ordinateur, il existe également des mises à jour intéressantes dans d'autres domaines de l'IA, tels que le traitement du langage naturel (TLN) et la robotique. Examinons quelques-unes de ces récentes évolutions de Meta FAIR.

Spirit LM de Meta : Innovations en matière d'IA dans les modèles linguistiques et multimodaux

Spirit LM de Meta est un nouveau modèle de langage multimodal qui combine des capacités de texte et de parole, rendant les interactions avec l'IA plus naturelles. Contrairement aux modèles traditionnels qui ne traitent que du texte ou que de la parole, Spirit LM peut passer de l'un à l'autre de manière transparente. 

Spirit LM peut comprendre et générer du langage d'une manière qui semble plus humaine. Par exemple, il peut améliorer les assistants virtuels qui peuvent à la fois écouter et répondre en langage parlé ou écrit, ou prendre en charge les outils d'accessibilité qui convertissent la parole en texte et vice versa. 

__wf_reserved_inherit
Fig 3. Un exemple de synthèse vocale utilisant Meta Spirit LM.

De plus, Meta a développé des techniques pour rendre les grands modèles linguistiques plus efficaces. L'une d'entre elles, appelée Layer Skip, permet de réduire les besoins de calcul et les coûts énergétiques en n'activant que les couches nécessaires à une tâche donnée. Ceci est particulièrement utile pour les applications sur les appareils dont la mémoire et la puissance sont limitées. 

Pour aller plus loin dans la nécessité de déployer des applications d'IA sur de tels appareils, Meta a également déployé des versions quantifiées de ses modèles Llama. Ces modèles sont compressés pour fonctionner plus rapidement sur les appareils mobiles sans sacrifier la précision

Un aperçu de l'avenir de l'optimisation avec Meta Lingua

À mesure que les modèles d'IA augmentent en taille et en complexité, l'optimisation de leur processus d'entraînement est devenue cruciale. En ce qui concerne l'optimisation, Meta a introduit Meta Lingua, une base de code flexible et efficace qui facilite l'entraînement des grands modèles linguistiques. La conception modulaire de Meta Lingua permet aux chercheurs de personnaliser et de faire évoluer rapidement leurs expériences. 

Les chercheurs peuvent consacrer moins de temps à la configuration technique et plus de temps à la recherche proprement dite. La base de code est également légère et facile à intégrer, ce qui la rend adaptée aux petites expériences comme aux projets à grande échelle. En supprimant ces obstacles techniques, Meta Lingua aide les chercheurs à progresser plus rapidement et à tester de nouvelles idées avec plus de facilité.

__wf_reserved_inherit
Fig 4. Un aperçu de Meta Lingua.

Les améliorations de Meta en matière de sécurité de l'IA

À mesure que la technologie de l'informatique quantique progresse, elle apporte de nouveaux défis à la sécurité des données. Contrairement aux ordinateurs d'aujourd'hui, il est probable que les ordinateurs quantiques soient capables de résoudre des calculs complexes beaucoup plus rapidement. Cela signifie qu'ils pourraient potentiellement casser les méthodes de cryptage actuellement utilisées pour protéger les informations sensibles. C'est pourquoi la recherche dans ce domaine devient de plus en plus importante : le développement de nouvelles façons de protéger les données est essentiel alors que nous nous préparons à l'avenir de l'informatique quantique.

Pour résoudre ce problème, Meta a développé Salsa, un outil visant à renforcer la sécurité cryptographique post-quantique. Salsa aide les chercheurs à tester les attaques basées sur l'IA et à identifier les faiblesses potentielles, leur permettant de mieux comprendre et de traiter les vulnérabilités des systèmes cryptographiques. En simulant des scénarios d'attaque avancés, Salsa fournit des informations précieuses qui peuvent guider le développement de mesures de sécurité plus robustes et résilientes pour l'ère quantique.

L'IA chez Meta : les dernières innovations en matière de robotique

Les derniers travaux de Meta en matière de robotique visent à aider l'IA à interagir plus naturellement avec le monde physique en améliorant la perception du toucher, la dextérité et la collaboration avec les humains. Meta Digit 360, en particulier, est un capteur tactile avancé qui offre aux robots un sens du toucher raffiné. Les capteurs aident les robots à détecter des détails tels que la texture, la pression et même la forme des objets. Grâce à ces informations, les robots peuvent manipuler des objets avec plus de précision, ce qui est essentiel dans des domaines tels que la santé et la fabrication.

Voici quelques-unes des principales caractéristiques du Meta Digit 360 :

  • Il est équipé de 18 fonctions de détection distinctes pour pouvoir capturer un large éventail de détails tactiles.
  • Le capteur peut détecter des variations de pression aussi faibles que 1 millinewton, ce qui permet aux robots de réagir aux textures fines et aux mouvements subtils.
  • Il comprend plus de 8 millions de taxels (minuscules points de détection) sur la surface du bout du doigt, fournissant une carte haute résolution des informations tactiles.

Le Meta Digit Plexus, une extension du Meta Digit 360, est une plateforme qui intègre divers capteurs tactiles sur une seule main robotique. Cette configuration permet aux robots de traiter les informations tactiles provenant de plusieurs points à la fois, de la même manière que les mains humaines recueillent des données sensorielles.

__wf_reserved_inherit
Fig. 5. Le Meta Digit Plexus.

Préparer le terrain pour le prochain chapitre de l'IA

Les dernières mises à jour de l'IA de Meta, allant des avancées en matière de vision par ordinateur avec SAM 2.1 et CoTracker3 aux nouveaux développements dans les modèles linguistiques et la robotique, montrent comment l'IA passe progressivement de la théorie à des solutions pratiques et percutantes. 

Ces outils sont conçus pour rendre l'IA plus adaptable et utile dans différents domaines, aidant à tout, de la segmentation d'images complexes à la compréhension du langage humain, et même à travailler à nos côtés dans des espaces physiques. 

En privilégiant l'accessibilité et l'application dans le monde réel, Meta FAIR nous rapproche d'un avenir où l'IA peut relever des défis concrets et améliorer notre vie quotidienne de manière significative. 

L'IA vous intéresse ? Rejoignez notre communauté pour obtenir les dernières mises à jour et informations, et consultez notre dépôt GitHub. Vous pouvez également découvrir comment la vision par ordinateur peut être utilisée dans des secteurs tels que les voitures autonomes et l'agriculture !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers