Aggiornamenti sulla ricerca sull'intelligenza artificiale da Meta FAIR: SAM 2.1 e CoTracker3

Abirami Vina

5 minuti di lettura

4 novembre 2024

Esplorate gli ultimi modelli di intelligenza artificiale di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni reali.

L'intelligenza artificiale (IA) è un campo di ricerca che negli ultimi tempi è in fermento, con innovazioni e scoperte più rapide che mai. Nelle scorse settimane, il team Fundamental AI Research (FAIR) di Meta ha presentato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'IA. Questi rilasci includono aggiornamenti che potrebbero avere un impatto su campi diversi come l'assistenza sanitaria, la robotica e la realtà aumentata.

Ad esempio, il modello SAM 2.1 aggiornato migliora la segmentazione degli oggetti, facilitando l'identificazione e la separazione accurata degli oggetti nelle immagini e nei video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere traccia dei punti nei fotogrammi video anche quando gli oggetti si spostano o vengono parzialmente bloccati. 

Meta ha anche introdotto versioni più leggere e veloci del suo modello di linguaggio Llama per un uso efficiente sul dispositivo, oltre a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo analizzeremo le ultime novità di Meta FAIR, analizzando le caratteristiche di ogni strumento. Iniziamo!

Il modello Segment Anything Model migliorato di Meta: SAM 2.1

La segmentazione degli oggetti, un'attività chiave della computer vision, consente di identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di specifiche aree di interesse. Sin dal suo rilascio, il Segment Anything Model 2 (SAM 2) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi, come l'imaging medico e la meteorologia. Sulla base dei feedback ricevuti dalla comunità, Meta ha ora introdotto SAM 2.1, una versione migliorata progettata per affrontare alcune delle sfide incontrate con il modello originale e fornire prestazioni complessivamente migliori.

__wf_reserved_inherit
Figura 1. SAM 2.1 Modello di benchmarking delle prestazioni.

SAM 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie a nuove tecniche di incremento dei dati. Migliora anche il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se sono temporaneamente bloccati. Ad esempio, se qualcuno sta filmando una persona che cammina dietro un albero, SAM 2.1 è in grado di seguire la persona mentre riappare dall'altra parte, utilizzando la sua memoria della posizione e del movimento dell'oggetto per colmare le lacune quando la visuale viene brevemente interrotta.

Oltre a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, che fornisce un codice di formazione open-source e un'infrastruttura demo completa per consentire agli sviluppatori di perfezionare SAM 2.1 con i propri dati e di integrarlo in una serie di applicazioni.

CoTracker3: Il modello di tracciamento di Meta, le sue caratteristiche e i suoi aggiornamenti

Un'altra interessante attività di computer vision è il tracciamento dei punti. Si tratta di seguire punti o caratteristiche specifiche in più fotogrammi di un video. Consideriamo un video di un ciclista che percorre una pista: il tracciamento dei punti permette al modello di tenere traccia dei punti del ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.

Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e il montaggio video. I modelli tradizionali si basano spesso su configurazioni complesse e grandi insiemi di dati sintetici, il che limita la loro efficacia quando vengono applicati a scenari reali. 

Il modello di tracciamento CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Inoltre, introduce unatecnica di pseudo-etichettatura che consente al modello di apprendere da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per l'uso pratico.

__wf_reserved_inherit
Figura 2. Confronto tra CoTracker3 e altri modelli di tracciamento.

Una delle caratteristiche che contraddistingue CoTracker3 è la capacità di gestire bene le occlusioni. Utilizzando l'attenzione trasversale, una tecnica che consente al modello di condividere le informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere molto efficace in ambienti dinamici, come ad esempio seguire una persona in una scena affollata. 

CoTracker3 offre anche modalità online e offline. La modalità online consente il tracciamento in tempo reale. Mentre la modalità offline può essere utilizzata per un tracciamento più completo di intere sequenze video, ideale per attività come il montaggio video o l'animazione

Altri aggiornamenti e ricerche di Meta FAIR

Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche interessanti aggiornamenti in altre aree dell'IA, come l'elaborazione del linguaggio naturale (NLP) e la robotica. Diamo un'occhiata ad alcuni di questi recenti sviluppi di Meta FAIR.

Meta's Spirit LM: innovazioni AI nei modelli linguistici e multimodali

Spirit LM di Meta è un nuovo modello linguistico multimodale che combina funzionalità testuali e vocali , rendendo più naturali le interazioni con l'intelligenza artificiale. A differenza dei modelli tradizionali che gestiscono solo il testo o solo il parlato, Spirit LM può passare da un modello all'altro senza soluzione di continuità. 

Spirit LM è in grado di comprendere e generare il linguaggio in modi più simili a quelli umani. Ad esempio, può migliorare gli assistenti virtuali che possono ascoltare e rispondere in linguaggio parlato o scritto, o supportare strumenti di accessibilità che convertono il parlato in testo. 

__wf_reserved_inherit
Figura 3. Un esempio di sintesi vocale con l'uso di Meta Spirit LM.

Inoltre, Meta ha sviluppato tecniche per rendere più efficienti i modelli linguistici di grandi dimensioni. Una di queste, chiamata Layer Skip, aiuta a ridurre il fabbisogno computazionale e i costi energetici attivando solo i livelli necessari per un determinato compito. Ciò è particolarmente utile per le applicazioni su dispositivi con memoria e potenza limitate. 

Per rispondere all'esigenza di distribuire applicazioni di intelligenza artificiale su tali dispositivi, Meta ha lanciato le versioni quantizzate dei suoi modelli Llama. Questi modelli sono compressi per essere eseguiti più velocemente sui dispositivi mobili senza sacrificare la precisione

Uno sguardo al futuro dell'ottimizzazione con Meta Lingua

Con la crescita delle dimensioni e della complessità dei modelli di intelligenza artificiale, l'ottimizzazione del loro processo di addestramento è diventata fondamentale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una base di codice flessibile ed efficiente che facilita l'addestramento di modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i loro esperimenti. 

I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. La base di codice è inoltre leggera e facile da integrare, il che la rende adatta sia a piccoli esperimenti che a progetti su larga scala. Eliminando questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a progredire più rapidamente e a testare nuove idee con maggiore facilità.

__wf_reserved_inherit
Figura 4. Panoramica di Meta Lingua.

I miglioramenti di Meta nella sicurezza dell'intelligenza artificiale

Il progresso della tecnologia informatica quantistica comporta nuove sfide per la sicurezza dei dati. A differenza dei computer di oggi, è probabile che i computer quantistici siano in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente infrangere i metodi di crittografia attualmente utilizzati per proteggere le informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: lo sviluppo di nuovi modi per proteggere i dati è essenziale per prepararsi al futuro dell'informatica quantistica.

Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento volto a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare gli attacchi guidati dall'intelligenza artificiale e a identificare i potenziali punti deboli, consentendo loro di comprendere e affrontare meglio le vulnerabilità dei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose indicazioni che possono guidare lo sviluppo di misure di sicurezza più forti e resistenti per l'era quantistica.

AI a Meta: Le ultime innovazioni della robotica

L'ultimo lavoro di Meta nel campo della robotica si concentra sull'aiutare l'intelligenza artificiale a interagire in modo più naturale con il mondo fisico, migliorando la percezione del tatto, la destrezza e la collaborazione con gli esseri umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che fornisce ai robot un raffinato senso del tatto. I sensori aiutano i robot a rilevare dettagli come la consistenza, la pressione e persino le forme degli oggetti. Grazie a queste intuizioni, i robot possono gestire gli oggetti con maggiore precisione, un aspetto fondamentale in settori come la sanità e la produzione.

Ecco alcune delle caratteristiche principali di Meta Digit 360:

  • È dotato di 18 funzioni di rilevamento distinte per poter catturare un'ampia gamma di dettagli tattili.
  • Il sensore è in grado di rilevare variazioni di pressione di appena 1 millinewton, consentendo ai robot di rispondere a texture sottili e movimenti impercettibili.
  • Include oltre 8 milioni di taxel (piccoli punti di rilevamento) sulla superficie delle dita, fornendo una mappa ad alta risoluzione delle informazioni tattili.

Un'estensione del Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra diversi sensori tattili in un'unica mano robotica. Questa configurazione consente ai robot di elaborare le informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono i dati sensoriali.

__wf_reserved_inherit
Figura 5. Il plesso metaciforme.

Preparare il prossimo capitolo dell'IA

Gli ultimi aggiornamenti di Meta sull'AI, che vanno dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, dimostrano come l'AI stia costantemente passando dalla teoria a soluzioni pratiche e d'impatto. 

Questi strumenti sono progettati per rendere l'intelligenza artificiale più adattabile e utile in diversi campi, aiutando a segmentare immagini complesse, a comprendere il linguaggio umano e persino a lavorare al nostro fianco negli spazi fisici. 

Dando priorità all'accessibilità e alle applicazioni reali, Meta FAIR ci avvicina a un futuro in cui l'intelligenza artificiale potrà affrontare le sfide del mondo reale e migliorare la nostra vita quotidiana in modo significativo. 

Siete curiosi di conoscere l'IA? Unitevi alla nostra comunità per ricevere gli ultimi aggiornamenti e approfondimenti e consultate il nostro repository GitHub. Potete anche scoprire come la computer vision può essere utilizzata in settori come le auto a guida autonoma e l'agricoltura!

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti