Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Esplora gli ultimi modelli AI di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni nel mondo reale.
L'intelligenza artificiale (IA) è un campo di ricerca che è stato recentemente in fermento di eccitazione ed energia, con nuove innovazioni e scoperte che appaiono più velocemente che mai. Nelle ultime settimane, il team di Ricerca Fondamentale sull'IA (FAIR) di Meta ha svelato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'IA. Queste release includono aggiornamenti che potrebbero avere un impatto su campi diversi come l'assistenza sanitaria, la robotica e la realtà aumentata.
Ad esempio, il modello SAM 2.1 aggiornato migliora la segmentazione degli oggetti, rendendo più facile identificare e separare con precisione gli oggetti in immagini e video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere traccia dei punti nei fotogrammi video anche quando gli oggetti si muovono o vengono parzialmente bloccati.
Meta ha anche introdotto versioni più leggere e veloci del suo modello linguistico Llama per un efficiente utilizzo su dispositivo, insieme a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo, analizzeremo queste ultime versioni di Meta FAIR, esaminando ciò che ogni strumento offre. Iniziamo!
Il Segment Anything Model migliorato di Meta: SAM 2.1
La segmentazione degli oggetti, un'attività chiave di computer vision, consente di identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di aree di interesse specifiche. Dalla sua uscita, il Segment Anything Model 2 (SAM 2) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi come l'imaging medicale e la meteorologia. Sulla base del feedback della community, Meta ha ora introdotto SAM 2.1, una versione migliorata progettata per affrontare alcune delle sfide incontrate con il modello originale e offrire prestazioni complessivamente più elevate.
Fig. 1. Benchmarking delle prestazioni del modello SAM 2.1.
SAM 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie alle nuove tecniche di data augmentation. Migliora anche il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se sono temporaneamente bloccati. Ad esempio, se qualcuno sta filmando un video di una persona che cammina dietro un albero, SAM 2.1 può tracciare la persona mentre riappare dall'altra parte, usando la sua memoria della posizione dell'oggetto e del movimento per colmare le lacune quando la vista viene brevemente interrotta.
Oltre a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, fornendo codice di training open source e un'infrastruttura demo completa in modo che gli sviluppatori possano effettuare il fine-tuning di SAM 2.1 con i propri dati e integrarla in una vasta gamma di applicazioni.
CoTracker3: il modello di tracciamento di Meta, le sue caratteristiche e gli aggiornamenti
Un altro compito interessante della computer vision è il tracciamento dei punti. Consiste nel seguire punti o caratteristiche specifiche attraverso più fotogrammi in un video. Si consideri un video di un ciclista che pedala lungo una pista: il tracciamento dei punti consente al modello di tenere traccia dei punti sul ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.
Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e l'editing video. I modelli tradizionali spesso si basano su configurazioni complesse e grandi dataset sintetici, il che ne limita l'efficacia quando applicati a scenari del mondo reale.
Il modello di tracking CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Introduce anche una tecnica di pseudo-etichettatura che consente al modello di apprendere da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per l'uso pratico.
Fig. 2. Confronto tra CoTracker3 e altri modelli di tracking.
Una delle caratteristiche distintive di CoTracker3 è la sua capacità di gestire bene le occlusioni. Utilizzando l'attenzione cross-track, una tecnica che consente al modello di condividere informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere altamente efficace in ambienti dinamici, come seguire una persona attraverso una scena affollata.
CoTracker3 offre anche modalità online e offline. La modalità online fornisce il tracciamento in tempo reale. Mentre la modalità offline può essere utilizzata per un tracciamento più completo attraverso intere sequenze video, ideale per attività come l'editing video o l'animazione.
Altri aggiornamenti e ricerche da Meta FAIR
Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche aggiornamenti interessanti in altre aree dell'AI, come l'elaborazione del linguaggio naturale (NLP) e la robotica. Diamo un'occhiata ad alcuni di questi recenti sviluppi di Meta FAIR.
Spirit LM di Meta: Innovazioni dell'AI nei Modelli Linguistici e Multimodali
Spirit LM di Meta è un nuovo modello linguistico multimodale che combina le capacità di testo e voce, rendendo le interazioni con l'AI più naturali. A differenza dei modelli tradizionali che gestiscono solo testo o solo voce, Spirit LM può passare senza problemi tra i due.
Spirit LM è in grado di comprendere e generare linguaggio in modi che appaiono più simili a quelli umani. Ad esempio, può migliorare gli assistenti virtuali che possono sia ascoltare che rispondere in linguaggio parlato o scritto, oppure supportare gli strumenti di accessibilità che convertono tra voce e testo.
Fig. 3. Un esempio di sintesi vocale tramite Meta Spirit LM.
Inoltre, Meta ha sviluppato tecniche per rendere i modelli linguistici di grandi dimensioni più efficienti. Una di queste, chiamata Layer Skip, aiuta a ridurre il fabbisogno computazionale e i costi energetici attivando solo i livelli necessari per un determinato compito. Questo è particolarmente utile per le applicazioni su dispositivi con memoria e potenza limitate.
Uno sguardo al futuro dell'ottimizzazione con Meta Lingua
Man mano che i modelli di IA crescono in dimensioni e complessità, l'ottimizzazione del loro processo di training è diventata cruciale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una codebase flessibile ed efficiente che semplifica il training di modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i propri esperimenti.
I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. La codebase è anche leggera e facile da integrare, rendendola adatta sia per piccoli esperimenti che per progetti su larga scala. Rimuovendo questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a fare progressi più rapidamente e a testare nuove idee con maggiore facilità.
Con l'avanzare della tecnologia del calcolo quantistico, emergono nuove sfide per la sicurezza dei dati. A differenza dei computer odierni, è probabile che i computer quantistici saranno in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente violare i metodi di crittografia attualmente utilizzati per proteggere le informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: sviluppare nuovi modi per proteggere i dati è essenziale mentre ci prepariamo per il futuro del calcolo quantistico.
Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento volto a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare gli attacchi basati sull'IA e a identificare le potenziali debolezze, consentendo loro di comprendere e affrontare meglio le vulnerabilità dei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose informazioni che possono guidare lo sviluppo di misure di sicurezza più solide e resilienti per l'era quantistica.
IA in Meta: le ultime innovazioni nella robotica
L'ultimo lavoro di Meta nella robotica si concentra sull'aiutare l'AI a interagire più naturalmente con il mondo fisico migliorando la percezione del tatto, la destrezza e la collaborazione con gli umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che offre ai robot un raffinato senso del tatto. I sensori aiutano i robot a rilevare dettagli come la texture, la pressione e persino la forma degli oggetti. Grazie a queste informazioni, i robot possono maneggiare gli oggetti con maggiore precisione, cosa fondamentale in aree come l'assistenza sanitaria e la produzione.
Ecco alcune delle caratteristiche principali incluse in Meta Digit 360:
È dotato di 18 distinte funzionalità di rilevamento per essere in grado di catturare un'ampia gamma di dettagli tattili.
Il sensore è in grado di rilevare variazioni di pressione minime, fino a 1 millinewton, consentendo ai robot di reagire a trame fini e movimenti impercettibili.
Include oltre 8 milioni di taxel (minuscoli punti di rilevamento) sulla superficie del polpastrello, fornendo una mappa ad alta risoluzione delle informazioni tattili.
Un'estensione del Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra vari sensori tattili su una singola mano robotica. Questa configurazione consente ai robot di elaborare le informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono i dati sensoriali.
Preparare il terreno per il prossimo capitolo dell'IA
Gli ultimi aggiornamenti di Meta sull'AI, che vanno dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, mostrano come l'AI si stia costantemente spostando dalla teoria a soluzioni pratiche e di grande impatto.
Questi strumenti sono progettati per rendere l'IA più adattabile e utile in diversi settori, aiutando in tutto, dalla segmentazione di immagini complesse alla comprensione del linguaggio umano e persino lavorando al nostro fianco negli spazi fisici.
Dando priorità all'accessibilità e all'applicazione nel mondo reale, Meta FAIR ci sta avvicinando a un futuro in cui l'IA può affrontare sfide concrete e migliorare la nostra vita quotidiana in modo significativo.
Sei curioso riguardo all'IA? Unisciti alla nostra community per gli ultimi aggiornamenti e approfondimenti, e dai un'occhiata al nostro repository GitHub. Puoi anche esplorare come la computer vision può essere utilizzata in settori come le auto a guida autonoma e l'agricoltura!