Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Impostazioni dei cookie
Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Esplorate gli ultimi modelli di intelligenza artificiale di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni reali.
L'intelligenza artificiale (IA) è un campo di ricerca che negli ultimi tempi è in fermento, con innovazioni e scoperte più rapide che mai. Nelle scorse settimane, il team Fundamental AI Research (FAIR) di Meta ha presentato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'IA. Questi rilasci includono aggiornamenti che potrebbero avere un impatto su campi diversi come l'assistenza sanitaria, la robotica e la realtà aumentata.
Ad esempio, il modello SAM 2.1 aggiornato migliora la segmentazione degli oggetti, facilitando l'identificazione e la separazione accurata degli oggetti nelle immagini e nei video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere traccia dei punti nei fotogrammi video anche quando gli oggetti si spostano o vengono parzialmente bloccati.
Meta ha anche introdotto versioni più leggere e veloci del suo modello di linguaggio Llama per un uso efficiente sul dispositivo, oltre a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo analizzeremo le ultime novità di Meta FAIR, analizzando le caratteristiche di ogni strumento. Iniziamo!
Il modello Segment Anything Model migliorato di Meta: SAM 2.1
La segmentazione degli oggetti, un'attività chiave della computer vision, consente di identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di specifiche aree di interesse. Sin dal suo rilascio, il Segment Anything Model 2 (SAM 2) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi, come l'imaging medico e la meteorologia. Sulla base dei feedback ricevuti dalla comunità, Meta ha ora introdotto SAM 2.1, una versione migliorata progettata per affrontare alcune delle sfide incontrate con il modello originale e fornire prestazioni complessivamente migliori.
Figura 1. SAM 2.1 Modello di benchmarking delle prestazioni.
SAM 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie a nuove tecniche di incremento dei dati. Migliora anche il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se sono temporaneamente bloccati. Ad esempio, se qualcuno sta filmando una persona che cammina dietro un albero, SAM 2.1 è in grado di seguire la persona mentre riappare dall'altra parte, utilizzando la sua memoria della posizione e del movimento dell'oggetto per colmare le lacune quando la visuale viene brevemente interrotta.
Oltre a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, che fornisce un codice di formazione open-source e un'infrastruttura demo completa per consentire agli sviluppatori di perfezionare SAM 2.1 con i propri dati e di integrarlo in una serie di applicazioni.
CoTracker3: Il modello di tracciamento di Meta, le sue caratteristiche e i suoi aggiornamenti
Un'altra interessante attività di computer vision è il tracciamento dei punti. Si tratta di seguire punti o caratteristiche specifiche in più fotogrammi di un video. Consideriamo un video di un ciclista che percorre una pista: il tracciamento dei punti permette al modello di tenere traccia dei punti del ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.
Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e il montaggio video. I modelli tradizionali si basano spesso su configurazioni complesse e grandi insiemi di dati sintetici, il che limita la loro efficacia quando vengono applicati a scenari reali.
Il modello di tracciamento CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Inoltre, introduce unatecnica di pseudo-etichettatura che consente al modello di apprendere da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per l'uso pratico.
Figura 2. Confronto tra CoTracker3 e altri modelli di tracciamento.
Una delle caratteristiche che contraddistingue CoTracker3 è la capacità di gestire bene le occlusioni. Utilizzando l'attenzione trasversale, una tecnica che consente al modello di condividere le informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere molto efficace in ambienti dinamici, come ad esempio seguire una persona in una scena affollata.
CoTracker3 offre anche modalità online e offline. La modalità online consente il tracciamento in tempo reale. Mentre la modalità offline può essere utilizzata per un tracciamento più completo di intere sequenze video, ideale per attività come il montaggio video o l'animazione.
Altri aggiornamenti e ricerche di Meta FAIR
Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche interessanti aggiornamenti in altre aree dell'IA, come l'elaborazione del linguaggio naturale (NLP) e la robotica. Diamo un'occhiata ad alcuni di questi recenti sviluppi di Meta FAIR.
Meta's Spirit LM: innovazioni AI nei modelli linguistici e multimodali
Spirit LM di Meta è un nuovo modello linguistico multimodale che combina funzionalità testuali e vocali , rendendo più naturali le interazioni con l'intelligenza artificiale. A differenza dei modelli tradizionali che gestiscono solo il testo o solo il parlato, Spirit LM può passare da un modello all'altro senza soluzione di continuità.
Spirit LM è in grado di comprendere e generare il linguaggio in modi più simili a quelli umani. Ad esempio, può migliorare gli assistenti virtuali che possono ascoltare e rispondere in linguaggio parlato o scritto, o supportare strumenti di accessibilità che convertono il parlato in testo.
Figura 3. Un esempio di sintesi vocale con l'uso di Meta Spirit LM.
Inoltre, Meta ha sviluppato tecniche per rendere più efficienti i modelli linguistici di grandi dimensioni. Una di queste, chiamata Layer Skip, aiuta a ridurre il fabbisogno computazionale e i costi energetici attivando solo i livelli necessari per un determinato compito. Ciò è particolarmente utile per le applicazioni su dispositivi con memoria e potenza limitate.
Uno sguardo al futuro dell'ottimizzazione con Meta Lingua
Con la crescita delle dimensioni e della complessità dei modelli di intelligenza artificiale, l'ottimizzazione del loro processo di addestramento è diventata fondamentale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una base di codice flessibile ed efficiente che facilita l'addestramento di modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i loro esperimenti.
I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. La base di codice è inoltre leggera e facile da integrare, il che la rende adatta sia a piccoli esperimenti che a progetti su larga scala. Eliminando questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a progredire più rapidamente e a testare nuove idee con maggiore facilità.
I miglioramenti di Meta nella sicurezza dell'intelligenza artificiale
Il progresso della tecnologia informatica quantistica comporta nuove sfide per la sicurezza dei dati. A differenza dei computer di oggi, è probabile che i computer quantistici siano in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente infrangere i metodi di crittografia attualmente utilizzati per proteggere le informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: lo sviluppo di nuovi modi per proteggere i dati è essenziale per prepararsi al futuro dell'informatica quantistica.
Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento volto a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare gli attacchi guidati dall'intelligenza artificiale e a identificare i potenziali punti deboli, consentendo loro di comprendere e affrontare meglio le vulnerabilità dei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose indicazioni che possono guidare lo sviluppo di misure di sicurezza più forti e resistenti per l'era quantistica.
AI a Meta: Le ultime innovazioni della robotica
L'ultimo lavoro di Meta nel campo della robotica si concentra sull'aiutare l'intelligenza artificiale a interagire in modo più naturale con il mondo fisico, migliorando la percezione del tatto, la destrezza e la collaborazione con gli esseri umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che fornisce ai robot un raffinato senso del tatto. I sensori aiutano i robot a rilevare dettagli come la consistenza, la pressione e persino le forme degli oggetti. Grazie a queste intuizioni, i robot possono gestire gli oggetti con maggiore precisione, un aspetto fondamentale in settori come la sanità e la produzione.
Ecco alcune delle caratteristiche principali di Meta Digit 360:
È dotato di 18 funzioni di rilevamento distinte per poter catturare un'ampia gamma di dettagli tattili.
Il sensore è in grado di rilevare variazioni di pressione di appena 1 millinewton, consentendo ai robot di rispondere a texture sottili e movimenti impercettibili.
Include oltre 8 milioni di taxel (piccoli punti di rilevamento) sulla superficie delle dita, fornendo una mappa ad alta risoluzione delle informazioni tattili.
Un'estensione del Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra diversi sensori tattili in un'unica mano robotica. Questa configurazione consente ai robot di elaborare le informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono i dati sensoriali.
Gli ultimi aggiornamenti di Meta sull'AI, che vanno dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, dimostrano come l'AI stia costantemente passando dalla teoria a soluzioni pratiche e d'impatto.
Questi strumenti sono progettati per rendere l'intelligenza artificiale più adattabile e utile in diversi campi, aiutando a segmentare immagini complesse, a comprendere il linguaggio umano e persino a lavorare al nostro fianco negli spazi fisici.
Dando priorità all'accessibilità e alle applicazioni reali, Meta FAIR ci avvicina a un futuro in cui l'intelligenza artificiale potrà affrontare le sfide del mondo reale e migliorare la nostra vita quotidiana in modo significativo.
Siete curiosi di conoscere l'IA? Unitevi alla nostra comunità per ricevere gli ultimi aggiornamenti e approfondimenti e consultate il nostro repository GitHub. Potete anche scoprire come la computer vision può essere utilizzata in settori come le auto a guida autonoma e l'agricoltura!