Mises à jour de la recherche en IA de Meta FAIR : SAM 2.1 et CoTracker3
Explore les derniers modèles d'IA de Meta FAIR, SAM 2.1 et CoTracker3, offrant des capacités avancées de segmentation et de suivi pour diverses applications réelles.

L'intelligence artificielle (IA) est un domaine de recherche qui suscite récemment beaucoup d'enthousiasme et d'énergie, avec de nouvelles innovations et des percées apparaissant plus rapidement que jamais. Ces dernières semaines, l'équipe de recherche fondamentale en IA (FAIR) de Meta a dévoilé une série d'outils et de modèles visant à relever des défis dans différents domaines de l'IA. Ces publications incluent des mises à jour susceptibles d'avoir un impact sur des secteurs aussi variés que la santé, la robotique et la réalité augmentée.
Par exemple, le modèle mis à jour SAM 2.1 améliore la segmentation d'objets, facilitant l'identification et la séparation précises d'objets dans des images et des vidéos. Parallèlement, CoTracker3 se concentre sur le suivi de points, aidant à suivre des points dans les images vidéo même lorsque les objets bougent ou sont partiellement masqués.
Meta a également introduit des versions plus légères et plus rapides de son modèle linguistique Llama pour une utilisation sur appareil efficace, ainsi qu'une nouvelle technologie de détection tactile pour la robotique. Dans cet article, nous allons détailler ces dernières nouveautés de Meta FAIR en examinant ce que chaque outil propose. Commençons !
Link to this sectionSegment Anything Model amélioré de Meta : SAM 2.1#
La segmentation d'objets, une tâche de vision par ordinateur clé, permet d'identifier et de séparer des objets distincts au sein d'une image ou d'une vidéo, facilitant ainsi l'analyse de zones d'intérêt spécifiques. Depuis sa sortie, le Segment Anything Model 2 (SAM 2) de Meta a été utilisé pour la segmentation d'objets dans divers domaines comme l'imagerie médicale et la météorologie. En se basant sur les retours de la communauté, Meta a maintenant introduit SAM 2.1, une version améliorée conçue pour relever certains des défis rencontrés avec le modèle original et offrir une meilleure performance globale.

Fig 1. Analyse comparative des performances du modèle SAM 2.1.
SAM 2.1 inclut des mises à jour pour mieux gérer les objets visuellement similaires et plus petits, grâce à de nouvelles techniques d'augmentation de données. Il améliore également la manière dont le modèle gère l'occlusion (lorsque des parties d'un objet sont cachées) en l'entraînant sur des séquences vidéo plus longues, lui permettant de "se souvenir" et de reconnaître les objets au fil du temps, même s'ils sont temporairement bloqués. Par exemple, si quelqu'un filme une vidéo d'une personne marchant derrière un arbre, SAM 2.1 peut suivre la personne lorsqu'elle réapparaît de l'autre côté, en utilisant sa mémoire de la position de l'objet et de son mouvement pour combler les lacunes lorsque la vue est brièvement interrompue.
Parallèlement à ces mises à jour, Meta a publié la suite de développement SAM 2, fournissant du code d'entraînement open-source et une infrastructure de démonstration complète afin que les développeurs puissent ajuster SAM 2.1 avec leurs propres données et l'intégrer dans toute une gamme d'applications.
Link to this sectionCoTracker3 : le modèle de suivi de Meta, ses fonctionnalités et mises à jour#
Une autre tâche intéressante de vision par ordinateur est le suivi de points. Cela implique de suivre des points ou des caractéristiques spécifiques à travers plusieurs images dans une vidéo. Imagine une vidéo d'un cycliste roulant sur une piste : le suivi de points permet au modèle de garder une trace des points sur le cycliste, comme le casque ou les roues, même s'ils sont cachés par des obstacles pendant un moment.
Le suivi de points est essentiel pour des applications comme la reconstruction 3D, la robotique et le montage vidéo. Les modèles traditionnels reposent souvent sur des configurations complexes et de grands jeux de données synthétiques, ce qui limite leur efficacité lorsqu'ils sont appliqués à des scénarios réels.
Le modèle de suivi CoTracker3 de Meta résout ces limitations en simplifiant l'architecture du modèle. Il introduit également une technique de pseudo-étiquetage qui permet au modèle d'apprendre à partir de vidéos réelles non annotées, rendant CoTracker3 plus efficace et évolutif pour une utilisation pratique.

Fig 2. Comparaison de CoTracker3 avec d'autres modèles de suivi.
L'une des caractéristiques qui fait ressortir CoTracker3 est sa capacité à bien gérer les occlusions. En utilisant l'attention croisée, une technique qui permet au modèle de partager des informations entre plusieurs points suivis, CoTracker3 peut déduire les positions des points cachés en se référant à ceux qui sont visibles. Ainsi, CoTracker3 est conçu pour être très efficace dans des environnements dynamiques, comme pour suivre une personne dans une scène bondée.
CoTracker3 offre également des modes en ligne et hors ligne. Le mode en ligne fournit un suivi en temps réel, tandis que le mode hors ligne peut être utilisé pour un suivi plus complet à travers des séquences vidéo entières, idéal pour des tâches comme le montage vidéo ou l'animation.
Link to this sectionAutres mises à jour et recherches de Meta FAIR#
Bien que SAM 2.1 et CoTracker3 présentent les dernières avancées de Meta en vision par ordinateur, il existe également des mises à jour passionnantes dans d'autres domaines de l'IA, tels que le traitement du langage naturel (NLP) et la robotique. Jetons un coup d'œil à certains de ces autres développements récents de Meta FAIR.
Link to this sectionSpirit LM de Meta : innovations en IA dans les modèles linguistiques et multimodaux#
Spirit LM de Meta est un nouveau modèle linguistique multimodal qui combine des capacités de texte et de parole, rendant les interactions avec l'IA plus naturelles. Contrairement aux modèles traditionnels qui gèrent uniquement le texte ou la parole, Spirit LM peut basculer de manière transparente entre les deux.
Spirit LM peut comprendre et générer du langage de manières qui semblent plus humaines. Par exemple, il peut améliorer les assistants virtuels qui peuvent à la fois écouter et répondre en langage parlé ou écrit, ou prendre en charge des outils d'accessibilité qui convertissent la parole en texte et vice versa.

Fig 3. Un exemple de synthèse vocale utilisant Meta Spirit LM.
De plus, Meta a développé des techniques pour rendre les grands modèles linguistiques plus efficaces. L'une d'entre elles, appelée Layer Skip, aide à réduire les besoins informatiques et les coûts énergétiques en activant uniquement les couches nécessaires pour une tâche donnée. C'est particulièrement utile pour les applications sur des appareils avec une mémoire et une puissance limitées.
Poussant plus loin le besoin de déployer des applications d'IA sur de tels appareils, Meta a également lancé des versions quantifiées de ses modèles Llama. Ces modèles sont compressés pour s'exécuter plus rapidement sur des appareils mobiles sans sacrifier la précision.
Link to this sectionUn regard sur l'avenir de l'optimisation avec Meta Lingua#
À mesure que les AI models gagnent en taille et en complexité, l'optimisation de leur processus d'training est devenue cruciale. En ce qui concerne l'optimization, Meta a introduit Meta Lingua, une base de code flexible et efficace qui facilite l'entraînement des large language models. La conception modulaire de Meta Lingua permet aux researchers de personnaliser et de mettre à l'échelle rapidement leurs expériences.
Les chercheurs peuvent consacrer moins de temps à la configuration technique et plus de temps à la recherche réelle. La base de code est également légère et facile à intégrer, ce qui la rend adaptée aux petites expériences comme aux projets à grande échelle. En supprimant ces obstacles techniques, Meta Lingua aide les chercheurs à progresser plus rapidement et à tester de nouvelles idées avec une plus grande facilité.

Fig 4. Un aperçu de Meta Lingua.
Link to this sectionLes améliorations de Meta en matière de sécurité de l'IA#
Alors que la technologie de l'informatique quantique progresse, elle apporte de nouveaux défis pour la sécurité des données. Contrairement aux ordinateurs d'aujourd'hui, il est probable que les ordinateurs quantiques soient capables de résoudre des calculs complexes beaucoup plus rapidement. Cela signifie qu'ils pourraient potentiellement briser les méthodes de chiffrement actuellement utilisées pour protéger les informations sensibles. C'est pourquoi la recherche dans ce domaine devient de plus en plus importante : développer de nouvelles façons de protéger les données est essentiel à mesure que nous nous préparons à l'avenir de l'informatique quantique.
Pour y remédier, Meta a développé Salsa, un outil visant à renforcer la sécurité cryptographique post-quantique. Salsa aide les chercheurs à tester des attaques pilotées par l'IA et à identifier des faiblesses potentielles, leur permettant de mieux comprendre et de traiter les vulnérabilités des systèmes cryptographiques. En simulant des scénarios d'attaque avancés, Salsa fournit des informations précieuses qui peuvent guider le développement de mesures de sécurité plus solides et plus résilientes pour l'ère quantique.
Link to this sectionL'IA chez Meta : dernières innovations en robotique#
Les derniers travaux de Meta en robotique se concentrent sur l'aide apportée à l'IA pour interagir plus naturellement avec le monde physique en améliorant la perception tactile, la dextérité et la collaboration avec les humains. En particulier, Meta Digit 360 est un capteur tactile avancé qui donne aux robots un sens du toucher raffiné. Les capteurs aident les robots à détecter des détails comme la texture, la pression et même les formes des objets. Grâce à ces informations, les robots peuvent manipuler les objets avec plus de précision, ce qui est crucial dans des domaines comme la santé et la fabrication.
Voici quelques-unes des fonctionnalités clés incluses dans Meta Digit 360 :
- Il est équipé de 18 fonctionnalités de détection distinctes pour pouvoir capturer une large gamme de détails tactiles.
- Le capteur peut détecter des changements de pression aussi faibles que 1 millinewton, permettant aux robots de répondre aux textures fines et aux mouvements subtils.
- Il inclut plus de 8 millions de taxels (minuscules points de détection) sur toute la surface du bout des doigts, fournissant une carte haute résolution des informations tactiles.
Une extension de Meta Digit 360 est Meta Digit Plexus, une plateforme qui intègre divers capteurs tactiles sur une seule main robotique. Cette configuration permet aux robots de traiter les informations tactiles provenant de plusieurs points à la fois, de manière similaire à la façon dont les mains humaines recueillent des données sensorielles.

Fig 5. Le Meta Digit Plexus.
Link to this sectionPréparer le terrain pour le prochain chapitre de l'IA#
Les dernières mises à jour en IA de Meta, allant des avancées en vision par ordinateur avec SAM 2.1 et CoTracker3 aux nouveaux développements dans les modèles linguistiques et la robotique, montrent comment l'IA passe progressivement de la théorie à des solutions pratiques et percutantes.
Ces outils sont conçus pour rendre l'IA plus adaptable et utile dans différents domaines, aidant à tout faire, de la segmentation d'images complexes à la compréhension du langage humain et même au travail à nos côtés dans des espaces physiques.
En donnant la priorité à l'accessibilité et à l'application dans le monde réel, Meta FAIR nous rapproche d'un avenir où l'IA pourra relever des défis réels et améliorer notre vie quotidienne de manière significative.
Es-tu curieux à propos de l'IA ? Rejoins notre communauté pour les dernières mises à jour et perspectives, et consulte notre dépôt GitHub. Tu peux également explorer comment la vision par ordinateur peut être utilisée dans des industries comme les voitures autonomes et l'agriculture !






