Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

Aggiornamenti di ricerca sull'AI da Meta FAIR: SAM 2.1 e CoTracker3

Esplora gli ultimi modelli di AI di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni nel mondo reale.

ABAbirami Vina
5 min read
Ricerca AI di Meta FAIR: SAM 2.1 e CoTracker3

L'intelligenza artificiale (AI) è un campo di ricerca che di recente ha generato grande entusiasmo ed energia, con nuove innovazioni e scoperte che appaiono più velocemente che mai. Nelle ultime settimane, il team Fundamental AI Research (FAIR) di Meta ha presentato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'AI. Questi rilasci includono aggiornamenti che potrebbero avere un impatto su settori diversi come sanità, robotica e realtà aumentata.

Ad esempio, il modello aggiornato SAM 2.1 migliora la segmentazione degli oggetti, rendendo più semplice identificare e separare accuratamente oggetti in immagini e video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere traccia dei punti nei frame video anche quando gli oggetti si muovono o vengono parzialmente bloccati.

Meta ha inoltre introdotto versioni più leggere e veloci del suo modello linguistico Llama per un efficiente uso on-device, insieme a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo, analizzeremo questi ultimi rilasci di Meta FAIR, esaminando cosa offre ogni strumento. Cominciamo!

Link to this sectionIl Segment Anything Model potenziato di Meta: SAM 2.1#

La segmentazione degli oggetti, un'attività chiave di computer vision, rende possibile identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di aree di interesse specifiche. Dal suo rilascio, il Segment Anything Model 2 (SAM 2) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi come imaging medico e meteorologia. Sulla base dei feedback della comunità, Meta ha ora introdotto SAM 2.1, una versione migliorata progettata per affrontare alcune delle sfide incontrate con il modello originale e offrire prestazioni complessivamente migliori.

Benchmarking delle prestazioni del modello SAM 2.1

Fig 1. Benchmarking delle prestazioni del modello SAM 2.1.

SAM 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie a nuove tecniche di data augmentation. Migliora inoltre il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se vengono temporaneamente bloccati. Ad esempio, se qualcuno sta girando un video di una persona che cammina dietro un albero, SAM 2.1 può tracciare la persona mentre riappare dall'altra parte, usando la sua memoria della posizione dell'oggetto e del movimento per colmare le lacune quando la visuale viene brevemente interrotta.

Insieme a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, che fornisce codice di addestramento open-source e una demo completa dell'infrastruttura, così che gli sviluppatori possano fine-tuner SAM 2.1 con i propri dati e integrarlo in una serie di applicazioni.

Link to this sectionCoTracker3: il modello di tracciamento di Meta, le sue funzionalità e gli aggiornamenti#

Un'altra interessante attività di computer vision è il tracciamento dei punti. Comporta il seguire punti o caratteristiche specifici attraverso più frame in un video. Pensa a un video di un ciclista che percorre una pista: il tracciamento dei punti consente al modello di tenere traccia dei punti sul ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.

Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e l'editing video. I modelli tradizionali spesso si affidano a configurazioni complesse e grandi dataset sintetici, il che ne limita l'efficacia quando applicati a scenari del mondo reale.

Il modello di tracciamento CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Introduce inoltre una tecnica di pseudo-labeling che consente al modello di imparare da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per un uso pratico.

Confronto tra CoTracker3 e altri modelli di tracking

Fig 2. Confronto di CoTracker3 con altri modelli di tracciamento.

Una delle caratteristiche che distingue CoTracker3 è la sua capacità di gestire bene le occlusioni. Utilizzando l'attenzione cross-track, una tecnica che consente al modello di condividere informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere estremamente efficace in ambienti dinamici, come seguire una persona attraverso una scena affollata.

CoTracker3 offre anche modalità online e offline. La modalità online fornisce il tracciamento in tempo reale, mentre la modalità offline può essere utilizzata per un tracciamento più completo su intere sequenze video, ideale per attività come l'editing video o l'animazione.

Link to this sectionAltri aggiornamenti e ricerche da Meta FAIR#

Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche interessanti aggiornamenti in altre aree dell'AI, come il natural language processing (NLP) e la robotica. Diamo un'occhiata ad alcuni di questi altri recenti sviluppi da Meta FAIR.

Link to this sectionSpirit LM di Meta: innovazioni AI nei modelli linguistici e multimodali#

Spirit LM di Meta è un nuovo modello linguistico multimodale che combina capacità di testo e voce, rendendo le interazioni con l'AI più naturali. A differenza dei modelli tradizionali che gestiscono solo testo o solo voce, Spirit LM può passare facilmente da uno all'altro.

Spirit LM può comprendere e generare linguaggio in modi che appaiono più umani. Ad esempio, può migliorare gli assistenti virtuali in grado di ascoltare e rispondere sia in lingua parlata che scritta, o supportare strumenti di accessibilità che convertono tra voce e testo.

Un esempio di sintesi vocale tramite Meta Spirit LM

Fig 3. Un esempio di sintesi vocale utilizzando Meta Spirit LM.

Inoltre, Meta ha sviluppato tecniche per rendere i modelli linguistici di grandi dimensioni più efficienti. Una di queste, chiamata Layer Skip, aiuta a ridurre i bisogni computazionali e i costi energetici attivando solo i layer necessari per una determinata attività. Questo è particolarmente utile per le applicazioni on-device con memoria e potenza limitate.

Portando la necessità di distribuire applicazioni AI su tali dispositivi un passo oltre, Meta ha anche lanciato versioni quantizzate dei suoi modelli Llama. Questi modelli sono compressi per funzionare più velocemente su dispositivi mobili senza sacrificare l'accuratezza.

Link to this sectionUno sguardo al futuro dell'ottimizzazione con Meta Lingua#

Man mano che i modelli AI crescono in dimensioni e complessità, ottimizzare il loro processo di addestramento è diventato fondamentale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una base di codice flessibile ed efficiente che semplifica l'addestramento dei modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i propri esperimenti.

I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. La codebase è anche leggera e facile da integrare, rendendola adatta sia a piccoli esperimenti che a progetti su larga scala. Eliminando questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a fare progressi più rapidi e a testare nuove idee con maggiore facilità.

Una panoramica di Meta Lingua

Fig 4. Una panoramica di Meta Lingua.

Link to this sectionMiglioramenti di Meta nella sicurezza AI#

Man mano che la tecnologia di quantum computing avanza, porta nuove sfide alla sicurezza dei dati. A differenza dei computer odierni, è probabile che i computer quantistici saranno in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente violare i metodi di crittografia attualmente utilizzati per proteggere informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: sviluppare nuovi modi per proteggere i dati è essenziale mentre ci prepariamo per il futuro del quantum computing.

Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento volto a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare attacchi guidati dall'AI e identificare potenziali debolezze, consentendo loro di comprendere e affrontare meglio le vulnerabilità nei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose intuizioni che possono guidare lo sviluppo di misure di sicurezza più forti e resilienti per l'era quantistica.

Link to this sectionAI in Meta: ultime innovazioni nella robotica#

L'ultimo lavoro di Meta nella robotica si concentra sull'aiutare l'AI a interagire più naturalmente con il mondo fisico migliorando la percezione del tatto, la destrezza e la collaborazione con gli esseri umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che conferisce ai robot un raffinato senso del tatto. I sensori aiutano i robot a rilevare dettagli come consistenza, pressione e persino le forme degli oggetti. Da queste intuizioni, i robot possono maneggiare gli oggetti con maggiore precisione; qualcosa che è cruciale in settori come la sanità e la produzione.

Ecco alcune delle caratteristiche chiave incluse in Meta Digit 360:

  • È dotato di 18 distinte funzioni di rilevamento per poter catturare una vasta gamma di dettagli tattili.
  • Il sensore può rilevare cambiamenti di pressione piccoli fino a 1 millinewton, consentendo ai robot di rispondere a consistenze sottili e movimenti delicati.
  • Include oltre 8 milioni di taxel (minuscoli punti di rilevamento) sulla superficie della punta delle dita, fornendo una mappa ad alta risoluzione delle informazioni tattili.

Un'estensione di Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra vari sensori tattili su una singola mano robotica. Questa configurazione consente ai robot di elaborare informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono dati sensoriali.

La piattaforma di rilevamento tattile Meta Digit Plexus

Fig 5. Il Meta Digit Plexus.

Link to this sectionPreparare il terreno per il prossimo capitolo dell'AI#

Gli ultimi aggiornamenti AI di Meta, che spaziano dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, mostrano come l'AI si stia costantemente spostando dalla teoria a soluzioni pratiche e di grande impatto.

Questi strumenti sono progettati per rendere l'AI più adattabile e utile in diversi settori, aiutando in tutto, dalla segmentazione di immagini complesse alla comprensione del linguaggio umano e persino lavorando al nostro fianco in spazi fisici.

Dando priorità all'accessibilità e all'applicazione nel mondo reale, Meta FAIR ci sta avvicinando a un futuro in cui l'AI può affrontare le sfide del mondo reale e migliorare le nostre vite quotidiane in modi significativi.

Sei curioso dell'AI? Unisciti alla nostra comunità per gli ultimi aggiornamenti e approfondimenti, e dai un'occhiata al nostro repository GitHub. Puoi anche esplorare come la computer vision può essere utilizzata in settori come auto a guida autonoma e agricoltura!

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning