Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Esplorate gli ultimi modelli di intelligenza artificiale di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni reali.
L'intelligenza artificiale (IA) è un campo di ricerca che è stato recentemente in fermento di eccitazione ed energia, con nuove innovazioni e scoperte che appaiono più velocemente che mai. Nelle ultime settimane, il team di Ricerca Fondamentale sull'IA (FAIR) di Meta ha svelato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'IA. Queste release includono aggiornamenti che potrebbero avere un impatto su campi diversi come l'assistenza sanitaria, la robotica e la realtà aumentata.
Ad esempio, il modello SAM 2.1 aggiornato migliora la segmentazione degli oggetti, facilitando l'identificazione e la separazione accurata degli oggetti nelle immagini e nei video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere track dei punti nei fotogrammi video anche quando gli oggetti si spostano o vengono parzialmente bloccati.
Meta ha anche introdotto versioni più leggere e veloci del suo modello linguistico Llama per un efficiente utilizzo su dispositivo, insieme a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo, analizzeremo queste ultime versioni di Meta FAIR, esaminando ciò che ogni strumento offre. Iniziamo!
Il modello Segment Anything Model migliorato di Meta: SAM 2.1
La segmentazione degli oggetti, un'attività chiave della computer vision, consente di identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di specifiche aree di interesse. Sin dal suo rilascio, il Segment Anything Model 2 (SAM 2) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi, come l'imaging medico e la meteorologia. Sulla base dei feedback ricevuti dalla comunità, Meta ha ora introdotto SAM 2.1, una versione migliorata progettata per affrontare alcune delle sfide incontrate con il modello originale e fornire prestazioni complessivamente migliori.
Figura 1. SAM 2.1 Modello di benchmarking delle prestazioni.
SAM 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie a nuove tecniche di incremento dei dati. Inoltre, migliora il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se sono temporaneamente bloccati. Ad esempio, se qualcuno sta riprendendo un video di una persona che cammina dietro un albero, SAM 2.1 può track SAM 2.1 è in grado di seguire la persona mentre riappare dall'altra parte, utilizzando la sua memoria della posizione e del movimento dell'oggetto per colmare i vuoti quando la visuale viene brevemente interrotta.
Oltre a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, che fornisce un codice di formazione open-source e un'infrastruttura demo completa per consentire agli sviluppatori di perfezionare SAM 2.1 con i propri dati e di integrarlo in una serie di applicazioni.
CoTracker3: il modello di tracciamento di Meta, le sue caratteristiche e gli aggiornamenti
Un'altra interessante attività di computer vision è il tracciamento dei punti. Si tratta di seguire punti o caratteristiche specifiche in più fotogrammi di un video. Consideriamo un video di un ciclista che percorre una track : il tracciamento dei punti permette al modello di tenere track dei punti del ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.
Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e l'editing video. I modelli tradizionali spesso si basano su configurazioni complesse e grandi dataset sintetici, il che ne limita l'efficacia quando applicati a scenari del mondo reale.
Il modello di tracking CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Introduce anche una tecnica di pseudo-etichettatura che consente al modello di apprendere da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per l'uso pratico.
Fig. 2. Confronto tra CoTracker3 e altri modelli di tracking.
Una delle caratteristiche che contraddistingue CoTracker3 è la capacità di gestire bene le occlusioni. Utilizzando l'attenzione track , una tecnica che consente al modello di condividere le informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere molto efficace in ambienti dinamici, come ad esempio seguire una persona in una scena affollata.
CoTracker3 offre anche modalità online e offline. La modalità online fornisce il tracciamento in tempo reale. Mentre la modalità offline può essere utilizzata per un tracciamento più completo attraverso intere sequenze video, ideale per attività come l'editing video o l'animazione.
Altri aggiornamenti e ricerche da Meta FAIR
Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche interessanti aggiornamenti in altre aree dell'IA, come l'elaborazione del linguaggio naturale (NLP) e la robotica. Diamo un'occhiata ad alcuni di questi recenti sviluppi di Meta FAIR.
Spirit LM di Meta: Innovazioni dell'AI nei Modelli Linguistici e Multimodali
Spirit LM di Meta è un nuovo modello linguistico multimodale che combina le capacità di testo e voce, rendendo le interazioni con l'AI più naturali. A differenza dei modelli tradizionali che gestiscono solo testo o solo voce, Spirit LM può passare senza problemi tra i due.
Spirit LM è in grado di comprendere e generare linguaggio in modi che appaiono più simili a quelli umani. Ad esempio, può migliorare gli assistenti virtuali che possono sia ascoltare che rispondere in linguaggio parlato o scritto, oppure supportare gli strumenti di accessibilità che convertono tra voce e testo.
Fig. 3. Un esempio di sintesi vocale tramite Meta Spirit LM.
Inoltre, Meta ha sviluppato tecniche per rendere i modelli linguistici di grandi dimensioni più efficienti. Una di queste, chiamata Layer Skip, aiuta a ridurre il fabbisogno computazionale e i costi energetici attivando solo i livelli necessari per un determinato compito. Questo è particolarmente utile per le applicazioni su dispositivi con memoria e potenza limitate.
Uno sguardo al futuro dell'ottimizzazione con Meta Lingua
Man mano che i modelli di IA crescono in dimensioni e complessità, l'ottimizzazione del loro processo di training è diventata cruciale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una codebase flessibile ed efficiente che semplifica il training di modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i propri esperimenti.
I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. La codebase è anche leggera e facile da integrare, rendendola adatta sia per piccoli esperimenti che per progetti su larga scala. Rimuovendo questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a fare progressi più rapidamente e a testare nuove idee con maggiore facilità.
Con l'avanzare della tecnologia del calcolo quantistico, emergono nuove sfide per la sicurezza dei dati. A differenza dei computer odierni, è probabile che i computer quantistici saranno in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente violare i metodi di crittografia attualmente utilizzati per proteggere le informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: sviluppare nuovi modi per proteggere i dati è essenziale mentre ci prepariamo per il futuro del calcolo quantistico.
Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento volto a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare gli attacchi basati sull'IA e a identificare le potenziali debolezze, consentendo loro di comprendere e affrontare meglio le vulnerabilità dei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose informazioni che possono guidare lo sviluppo di misure di sicurezza più solide e resilienti per l'era quantistica.
IA in Meta: le ultime innovazioni nella robotica
L'ultimo lavoro di Meta nel campo della robotica si concentra sull'aiutare l'intelligenza artificiale a interagire in modo più naturale con il mondo fisico, migliorando la percezione del tatto, la destrezza e la collaborazione con gli esseri umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che fornisce ai robot un raffinato senso del tatto. I sensori aiutano i robot a detect dettagli come la consistenza, la pressione e persino le forme degli oggetti. Grazie a queste intuizioni, i robot possono gestire gli oggetti con maggiore precisione, un aspetto fondamentale in settori come la sanità e la produzione.
Ecco alcune delle caratteristiche principali incluse in Meta Digit 360:
È dotato di 18 distinte funzionalità di rilevamento per essere in grado di catturare un'ampia gamma di dettagli tattili.
Il sensore è in grado di detect variazioni di pressione di appena 1 millinewton, consentendo ai robot di rispondere a texture sottili e movimenti impercettibili.
Include oltre 8 milioni di taxel (minuscoli punti di rilevamento) sulla superficie del polpastrello, fornendo una mappa ad alta risoluzione delle informazioni tattili.
Un'estensione del Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra vari sensori tattili su una singola mano robotica. Questa configurazione consente ai robot di elaborare le informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono i dati sensoriali.
Preparare il terreno per il prossimo capitolo dell'IA
Gli ultimi aggiornamenti di Meta sull'AI, che vanno dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, dimostrano come l'AI stia costantemente passando dalla teoria a soluzioni pratiche e d'impatto.
Questi strumenti sono progettati per rendere l'IA più adattabile e utile in diversi settori, aiutando in tutto, dalla segmentazione di immagini complesse alla comprensione del linguaggio umano e persino lavorando al nostro fianco negli spazi fisici.
Dando priorità all'accessibilità e all'applicazione nel mondo reale, Meta FAIR ci sta avvicinando a un futuro in cui l'IA può affrontare sfide concrete e migliorare la nostra vita quotidiana in modo significativo.
Sei curioso riguardo all'IA? Unisciti alla nostra community per gli ultimi aggiornamenti e approfondimenti, e dai un'occhiata al nostro repository GitHub. Puoi anche esplorare come la computer vision può essere utilizzata in settori come le auto a guida autonoma e l'agricoltura!