Mises à jour sur la recherche en IA de Meta FAIR : SAM 2.1 et CoTracker3

Abirami Vina

5 minutes de lecture

4 novembre 2024

Découvrez les derniers modèles d'IA de Meta FAIR, SAM 2.1 et CoTracker3, qui offrent des capacités avancées de segmentation et de suivi pour diverses applications dans le monde réel.

L'intelligence artificielle (IA) est un domaine de recherche qui a récemment suscité beaucoup d'enthousiasme et d'énergie, avec de nouvelles innovations et des percées plus rapides que jamais. Au cours des dernières semaines, l'équipe FAIR (Fundamental AI Research) de Meta a dévoilé un ensemble d'outils et de modèles visant à relever les défis dans différents domaines de l'IA. Ces versions comprennent des mises à jour qui pourraient avoir un impact sur des domaines aussi divers que les soins de santé, la robotique et la réalité augmentée.

Par exemple, le modèle SAM 2.1 actualisé améliore la segmentation des objets, ce qui facilite l'identification et la séparation précises des objets dans les images et les vidéos. De son côté, CoTracker3 se concentre sur le suivi des points, ce qui permet de garder la trace des points dans les images vidéo, même lorsque les objets se déplacent ou sont partiellement bloqués. 

Meta a également introduit des versions plus légères et plus rapides de son modèle de langage Llama pour une utilisation efficace sur l'appareil, ainsi qu'une nouvelle technologie de détection tactile pour la robotique. Dans cet article, nous allons analyser ces dernières versions de Meta FAIR, en examinant ce que chaque outil offre. C'est parti !

Le modèle Segment Anything amélioré de Meta : SAM 2.1

La segmentation d'objets, une tâche clé de la vision par ordinateur, permet d'identifier et de séparer des objets distincts dans une image ou une vidéo, facilitant ainsi l'analyse de zones d'intérêt spécifiques. Depuis sa sortie, le modèle Segment Anything Model 2 (SAM 2) de Meta a été utilisé pour la segmentation d'objets dans différents domaines tels que l'imagerie médicale et la météorologie. S'appuyant sur les commentaires de la communauté, Meta a maintenant introduit SAM 2.1, une version améliorée conçue pour relever certains des défis rencontrés avec le modèle original et pour offrir de meilleures performances globales.

__wf_reserved_inherit
Fig. 1. Analyse comparative des performances du modèle SAM 2.1.

SAM 2.1 comprend des mises à jour permettant de mieux gérer les objets visuellement similaires et plus petits, grâce à de nouvelles techniques d'augmentation des données. Il améliore également la façon dont le modèle traite l'occlusion (lorsque des parties d'un objet sont cachées) en l'entraînant sur des séquences vidéo plus longues, ce qui lui permet de "mémoriser" et de reconnaître des objets au fil du temps, même s'ils sont temporairement bloqués. Par exemple, si quelqu'un filme une personne marchant derrière un arbre, SAM 2.1 peut suivre la personne lorsqu'elle réapparaît de l'autre côté, en utilisant sa mémoire de la position et du mouvement de l'objet pour combler les lacunes lorsque la vue est brièvement interrompue.

Parallèlement à ces mises à jour, Meta a lancé la SAM 2 Developer Suite, qui fournit un code de formation open-source et une infrastructure de démonstration complète permettant aux développeurs d'affiner SAM 2.1 avec leurs propres données et de l'intégrer dans une série d'applications.

CoTracker3 : Le modèle de suivi de Meta, ses caractéristiques et ses mises à jour

Le suivi de points est une autre tâche intéressante dans le domaine de la vision par ordinateur. Il s'agit de suivre des points ou des caractéristiques spécifiques sur plusieurs images d'une vidéo. Prenons l'exemple d'une vidéo d'un cycliste roulant sur une piste. Le suivi de points permet au modèle de suivre des points sur le cycliste, comme son casque ou ses roues, même s'ils sont cachés par des obstacles pendant un moment.

Le suivi de points est essentiel pour des applications telles que la reconstruction 3D, la robotique et le montage vidéo. Les modèles traditionnels reposent souvent sur des configurations complexes et de grands ensembles de données synthétiques, ce qui limite leur efficacité lorsqu'ils sont appliqués à des scénarios réels. 

Le modèle de suivi CoTracker3 de Meta répond à ces limitations en simplifiant l'architecture du modèle. Il introduit également unetechnique de pseudo-étiquetage qui permet au modèle d'apprendre à partir de vidéos réelles non annotées, ce qui rend CoTracker3 plus efficace et plus évolutif pour une utilisation pratique.

__wf_reserved_inherit
Fig. 2. Comparaison de CoTracker3 avec d'autres modèles de suivi.

L'une des caractéristiques de CoTracker3 est sa capacité à gérer les occlusions. Grâce à l'attention croisée, une technique qui permet au modèle de partager des informations entre plusieurs points suivis, CoTracker3 peut déduire les positions des points cachés en se référant aux points visibles. Ce faisant, CoTracker3 est conçu pour être très efficace dans les environnements dynamiques, tels que le suivi d'une personne dans une scène bondée. 

CoTracker3 propose également des modes en ligne et hors ligne. Le mode en ligne permet un suivi en temps réel. Le mode hors ligne peut être utilisé pour un suivi plus complet de séquences vidéo entières, ce qui est idéal pour des tâches telles que le montage vidéo ou l'animation

Autres mises à jour et recherches de Meta FAIR

Alors que SAM 2.1 et CoTracker3 présentent les dernières avancées de Meta dans le domaine de la vision par ordinateur, il y a également des mises à jour passionnantes dans d'autres domaines de l'IA, tels que le traitement du langage naturel (NLP) et la robotique. Jetons un coup d'œil à quelques-uns de ces autres développements récents de Meta FAIR.

Meta's Spirit LM : Innovations en matière d'IA dans les modèles linguistiques et multimodaux

Spirit LM de Meta est un nouveau modèle de langage multimodal qui combine les capacités du texte et de la parole , ce qui rend les interactions avec l'IA plus naturelles. Contrairement aux modèles traditionnels qui ne gèrent que le texte ou la parole, Spirit LM peut passer de l'un à l'autre de manière transparente. 

Le Spirit LM peut comprendre et générer du langage d'une manière plus proche de l'humain. Par exemple, il peut améliorer les assistants virtuels qui peuvent à la fois écouter et répondre en langage parlé ou écrit, ou prendre en charge les outils d'accessibilité qui convertissent la parole en texte. 

__wf_reserved_inherit
Fig. 3. Exemple de synthèse vocale à l'aide de Meta Spirit LM.

En outre, Meta a mis au point des techniques visant à rendre plus efficaces les modèles linguistiques de grande taille. L'une d'entre elles, appelée Layer Skip, permet de réduire les besoins de calcul et les coûts énergétiques en n'activant que les couches nécessaires à une tâche donnée. Cette technique est particulièrement utile pour les applications sur des appareils dont la mémoire et la puissance sont limitées. 

Pour répondre à la nécessité de déployer des applications d'IA sur de tels appareils, Meta a également lancé des versions quantifiées de ses modèles Llama. Ces modèles sont compressés pour fonctionner plus rapidement sur les appareils mobiles sans sacrifier la précision

Un regard sur l'avenir de l'optimisation avec Meta Lingua

À mesure que les modèles d'intelligence artificielle gagnent en taille et en complexité, l'optimisation de leur processus de formation devient cruciale. En ce qui concerne l'optimisation, Meta a introduit Meta Lingua, une base de code flexible et efficace qui facilite l'apprentissage de grands modèles de langage. La conception modulaire de Meta Lingua permet aux chercheurs de personnaliser et d'adapter rapidement leurs expériences. 

Les chercheurs peuvent consacrer moins de temps à l'installation technique et plus de temps à la recherche proprement dite. La base de code est également légère et facile à intégrer, ce qui la rend adaptée aussi bien aux petites expériences qu'aux projets à grande échelle. En éliminant ces obstacles techniques, Meta Lingua aide les chercheurs à progresser plus rapidement et à tester de nouvelles idées plus facilement.

__wf_reserved_inherit
Fig. 4. Vue d'ensemble de Meta Lingua.

Améliorations apportées par Meta à la sécurité de l'IA

Les progrès de la technologie de l'informatique quantique posent de nouveaux défis à la sécurité des données. Contrairement aux ordinateurs actuels, il est probable que les ordinateurs quantiques seront capables de résoudre des calculs complexes beaucoup plus rapidement. Cela signifie qu'ils pourraient potentiellement casser les méthodes de cryptage actuellement utilisées pour protéger les informations sensibles. C'est pourquoi la recherche dans ce domaine devient de plus en plus importante : il est essentiel de développer de nouvelles méthodes de protection des données pour se préparer à l'avenir de l'informatique quantique.

Pour y remédier, Meta a développé Salsa, un outil destiné à renforcer la sécurité cryptographique post-quantique. Salsa aide les chercheurs à tester les attaques pilotées par l'IA et à identifier les faiblesses potentielles, ce qui leur permet de mieux comprendre les vulnérabilités des systèmes cryptographiques et d'y remédier. En simulant des scénarios d'attaque avancés, Salsa fournit des informations précieuses qui peuvent guider le développement de mesures de sécurité plus solides et plus résistantes pour l'ère quantique.

L'IA chez Meta : Dernières innovations en matière de robotique

Les derniers travaux de Meta dans le domaine de la robotique visent à aider l'IA à interagir plus naturellement avec le monde physique en améliorant la perception du toucher, la dextérité et la collaboration avec les humains. En particulier, Meta Digit 360 est un capteur tactile avancé qui donne aux robots un sens affiné du toucher. Les capteurs aident les robots à détecter des détails tels que la texture, la pression et même la forme des objets. Grâce à ces informations, les robots peuvent manipuler les objets avec plus de précision, ce qui est crucial dans des domaines tels que les soins de santé et la fabrication.

Voici quelques-unes des principales caractéristiques du Meta Digit 360 :

  • Il est équipé de 18 caractéristiques sensorielles distinctes permettant de capturer un large éventail de détails tactiles.
  • Le capteur peut détecter des variations de pression de l'ordre de 1 millinewton, ce qui permet aux robots de réagir aux textures fines et aux mouvements subtils.
  • Il comprend plus de 8 millions de taxels (minuscules points de détection) sur la surface du doigt, fournissant une carte haute résolution des informations tactiles.

Une extension du Meta Digit 360 est le Meta Digit Plexus, une plateforme qui intègre différents capteurs tactiles sur une seule main robotique. Cette configuration permet aux robots de traiter des informations tactiles provenant de plusieurs points à la fois, de la même manière que les mains humaines recueillent des données sensorielles.

__wf_reserved_inherit
Fig. 5. Le plexus méta-digital.

Préparer le terrain pour le prochain chapitre de l'IA

Les dernières mises à jour de Meta en matière d'IA, qui vont des avancées en vision artificielle avec SAM 2.1 et CoTracker3 aux nouveaux développements en matière de modèles de langage et de robotique, montrent comment l'IA passe progressivement de la théorie à des solutions pratiques et percutantes. 

Ces outils sont conçus pour rendre l'IA plus adaptable et plus utile dans différents domaines, en aidant à tout, de la segmentation d'images complexes à la compréhension du langage humain, et même en travaillant à nos côtés dans les espaces physiques. 

En donnant la priorité à l'accessibilité et à l'application dans le monde réel, Meta FAIR nous rapproche d'un avenir où l'IA pourra relever des défis concrets et améliorer notre vie quotidienne de manière significative. 

Êtes-vous curieux de l'IA ? Rejoignez notre communauté pour obtenir les dernières mises à jour et informations, et consultez notre dépôt GitHub. Vous pouvez également découvrir comment la vision par ordinateur peut être utilisée dans des secteurs tels que les voitures autonomes et l'agriculture!

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers