En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez les derniers modèles d'IA de Meta FAIR, SAM 2.1 et CoTracker3, qui offrent des capacités avancées de segmentation et de suivi pour diverses applications dans le monde réel.
L'intelligence artificielle (IA) est un domaine de recherche qui a récemment suscité beaucoup d'enthousiasme et d'énergie, avec de nouvelles innovations et des percées apparaissant plus rapidement que jamais. Au cours des dernières semaines, l'équipe de recherche fondamentale en IA (FAIR) de Meta a dévoilé un ensemble d'outils et de modèles visant à relever les défis dans différents domaines de l'IA. Ces versions comprennent des mises à jour qui pourraient avoir un impact sur des domaines aussi divers que les soins de santé, la robotique et la réalité augmentée.
Par exemple, le modèle SAM 2.1 actualisé améliore la segmentation des objets, ce qui facilite l'identification et la séparation précises des objets dans les images et les vidéos. De son côté, CoTracker3 se concentre sur le suivi des points, ce qui permet de garder la track des points dans les images vidéo, même lorsque les objets se déplacent ou sont partiellement bloqués.
Meta a également introduit des versions plus légères et plus rapides de son modèle de langage Llama pour une utilisation efficace sur l'appareil, ainsi qu'une nouvelle technologie de détection tactile pour la robotique. Dans cet article, nous allons décomposer ces dernières versions de Meta FAIR, en examinant ce que chaque outil offre. Commençons !
Le modèle Segment Anything amélioré de Meta : SAM 2.1
La segmentation d'objets, une tâche clé de la vision par ordinateur, permet d'identifier et de séparer des objets distincts dans une image ou une vidéo, facilitant ainsi l'analyse de zones d'intérêt spécifiques. Depuis sa sortie, le modèle Segment Anything Model 2 (SAM 2) de Meta a été utilisé pour la segmentation d'objets dans différents domaines tels que l'imagerie médicale et la météorologie. S'appuyant sur les commentaires de la communauté, Meta a maintenant introduit SAM 2.1, une version améliorée conçue pour relever certains des défis rencontrés avec le modèle original et pour offrir de meilleures performances globales.
Fig. 1. Analyse comparative des performances du modèle SAM 2.1.
SAM 2.1 comprend des mises à jour permettant de mieux gérer les objets visuellement similaires et plus petits, grâce à de nouvelles techniques d'augmentation des données. Il améliore également la façon dont le modèle traite l'occlusion (lorsque des parties d'un objet sont cachées) en l'entraînant sur des séquences vidéo plus longues, ce qui lui permet de "mémoriser" et de reconnaître des objets au fil du temps, même s'ils sont temporairement bloqués. Par exemple, si quelqu'un filme une personne marchant derrière un arbre, SAM 2.1 peut track la personne lorsqu'elle réapparaît de l'autre côté, en utilisant sa mémoire de la position et du mouvement del'objet pour combler les lacunes lorsque la vue est brièvement interrompue.
Parallèlement à ces mises à jour, Meta a lancé la SAM 2 Developer Suite, qui fournit un code de formation open-source et une infrastructure de démonstration complète permettant aux développeurs d'affiner SAM 2.1 avec leurs propres données et de l'intégrer dans une série d'applications.
CoTracker3 : Le modèle de suivi de Meta, ses caractéristiques et ses mises à jour
Le suivi de points est une autre tâche intéressante dans le domaine de la vision par ordinateur. Il s'agit de suivre des points ou des caractéristiques spécifiques sur plusieurs images d'une vidéo. Prenons l'exemple d'une vidéo d'un cycliste roulant sur une track . Le suivi de points permet au modèle de track des points sur le cycliste, comme son casque ou ses roues, même s'ils sont cachés par des obstacles pendant un moment.
Le suivi de points est essentiel pour des applications telles que la reconstruction 3D, la robotique et le montage vidéo. Les modèles traditionnels reposent souvent sur des configurations complexes et de vastes ensembles de données synthétiques, ce qui limite leur efficacité lorsqu'ils sont appliqués à des scénarios du monde réel.
Le modèle de suivi CoTracker3 de Meta répond à ces limitations en simplifiant l'architecture du modèle. Il introduit également une technique de pseudo-étiquetage qui permet au modèle d'apprendre à partir de vidéos réelles non annotées, ce qui rend CoTracker3 plus efficace et évolutif pour une utilisation pratique.
Fig 2. Comparaison de CoTracker3 avec d'autres modèles de suivi.
L'une des caractéristiques de CoTracker3 est sa capacité à gérer les occlusions. Grâce à l'attention track , une technique qui permet au modèle de partager des informations entre plusieurs points suivis, CoTracker3 peut déduire les positions des points cachés en se référant aux points visibles. Ce faisant, CoTracker3 est conçu pour être très efficace dans les environnements dynamiques, tels que le suivi d'une personne dans une scène bondée.
CoTracker3 offre également des modes en ligne et hors ligne. Le mode en ligne permet un suivi en temps réel. Le mode hors ligne, quant à lui, peut être utilisé pour un suivi plus complet sur l'ensemble des séquences vidéo, ce qui est idéal pour des tâches telles que le montage vidéo ou l'animation.
Autres mises à jour et recherches de Meta FAIR
Alors que SAM 2.1 et CoTracker3 présentent les dernières avancées de Meta dans le domaine de la vision par ordinateur, il y a également des mises à jour passionnantes dans d'autres domaines de l'IA, tels que le traitement du langage naturel (NLP) et la robotique. Jetons un coup d'œil à quelques-uns de ces autres développements récents de Meta FAIR.
Spirit LM de Meta : Innovations en matière d'IA dans les modèles linguistiques et multimodaux
Spirit LM de Meta est un nouveau modèle de langage multimodal qui combine des capacités de texte et de parole, rendant les interactions avec l'IA plus naturelles. Contrairement aux modèles traditionnels qui ne traitent que du texte ou que de la parole, Spirit LM peut passer de l'un à l'autre de manière transparente.
Spirit LM peut comprendre et générer du langage d'une manière qui semble plus humaine. Par exemple, il peut améliorer les assistants virtuels qui peuvent à la fois écouter et répondre en langage parlé ou écrit, ou prendre en charge les outils d'accessibilité qui convertissent la parole en texte et vice versa.
Fig 3. Un exemple de synthèse vocale utilisant Meta Spirit LM.
De plus, Meta a développé des techniques pour rendre les grands modèles linguistiques plus efficaces. L'une d'entre elles, appelée Layer Skip, permet de réduire les besoins de calcul et les coûts énergétiques en n'activant que les couches nécessaires à une tâche donnée. Ceci est particulièrement utile pour les applications sur les appareils dont la mémoire et la puissance sont limitées.
Un aperçu de l'avenir de l'optimisation avec Meta Lingua
À mesure que les modèles d'IA augmentent en taille et en complexité, l'optimisation de leur processus d'entraînement est devenue cruciale. En ce qui concerne l'optimisation, Meta a introduit Meta Lingua, une base de code flexible et efficace qui facilite l'entraînement des grands modèles linguistiques. La conception modulaire de Meta Lingua permet aux chercheurs de personnaliser et de faire évoluer rapidement leurs expériences.
Les chercheurs peuvent consacrer moins de temps à la configuration technique et plus de temps à la recherche proprement dite. La base de code est également légère et facile à intégrer, ce qui la rend adaptée aux petites expériences comme aux projets à grande échelle. En supprimant ces obstacles techniques, Meta Lingua aide les chercheurs à progresser plus rapidement et à tester de nouvelles idées avec plus de facilité.
Les améliorations de Meta en matière de sécurité de l'IA
À mesure que la technologie de l'informatique quantique progresse, elle apporte de nouveaux défis à la sécurité des données. Contrairement aux ordinateurs d'aujourd'hui, il est probable que les ordinateurs quantiques soient capables de résoudre des calculs complexes beaucoup plus rapidement. Cela signifie qu'ils pourraient potentiellement casser les méthodes de cryptage actuellement utilisées pour protéger les informations sensibles. C'est pourquoi la recherche dans ce domaine devient de plus en plus importante : le développement de nouvelles façons de protéger les données est essentiel alors que nous nous préparons à l'avenir de l'informatique quantique.
Pour résoudre ce problème, Meta a développé Salsa, un outil visant à renforcer la sécurité cryptographique post-quantique. Salsa aide les chercheurs à tester les attaques basées sur l'IA et à identifier les faiblesses potentielles, leur permettant de mieux comprendre et de traiter les vulnérabilités des systèmes cryptographiques. En simulant des scénarios d'attaque avancés, Salsa fournit des informations précieuses qui peuvent guider le développement de mesures de sécurité plus robustes et résilientes pour l'ère quantique.
L'IA chez Meta : les dernières innovations en matière de robotique
Les derniers travaux de Meta dans le domaine de la robotique visent à aider l'IA à interagir plus naturellement avec le monde physique en améliorant la perception du toucher, la dextérité et la collaboration avec les humains. En particulier, Meta Digit 360 est un capteur tactile avancé qui donne aux robots un sens affiné du toucher. Les capteurs aident les robots à detect détails tels que la texture, la pression et même la forme des objets. Grâce à ces informations, les robots peuvent manipuler les objets avec plus de précision, ce qui est crucial dans des domaines tels que les soins de santé et la fabrication.
Voici quelques-unes des principales caractéristiques du Meta Digit 360 :
Il est équipé de 18 fonctions de détection distinctes pour pouvoir capturer un large éventail de détails tactiles.
Le capteur peut detect variations de pression de l'ordre de 1 millinewton, ce qui permet aux robots de réagir aux textures fines et aux mouvements subtils.
Il comprend plus de 8 millions de taxels (minuscules points de détection) sur la surface du bout du doigt, fournissant une carte haute résolution des informations tactiles.
Le Meta Digit Plexus, une extension du Meta Digit 360, est une plateforme qui intègre divers capteurs tactiles sur une seule main robotique. Cette configuration permet aux robots de traiter les informations tactiles provenant de plusieurs points à la fois, de la même manière que les mains humaines recueillent des données sensorielles.
Préparer le terrain pour le prochain chapitre de l'IA
Les dernières mises à jour de Meta en matière d'IA, qui vont des avancées en vision artificielle avec SAM 2.1 et CoTracker3 aux nouveaux développements en matière de modèles de langage et de robotique, montrent comment l'IA passe progressivement de la théorie à des solutions pratiques et efficaces.
Ces outils sont conçus pour rendre l'IA plus adaptable et utile dans différents domaines, aidant à tout, de la segmentation d'images complexes à la compréhension du langage humain, et même à travailler à nos côtés dans des espaces physiques.
En privilégiant l'accessibilité et l'application dans le monde réel, Meta FAIR nous rapproche d'un avenir où l'IA peut relever des défis concrets et améliorer notre vie quotidienne de manière significative.
L'IA vous intéresse ? Rejoignez notre communauté pour obtenir les dernières mises à jour et informations, et consultez notre dépôt GitHub. Vous pouvez également découvrir comment la vision par ordinateur peut être utilisée dans des secteurs tels que les voitures autonomes et l'agriculture !