Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Vision AI consente la tecnologia di riconoscimento dei gesti senza contatto

Scopri come la visione artificiale alimenta la tecnologia di riconoscimento dei gesti per detect, track e comprendere i gesti delle mani in varie applicazioni.

Con l'evolversi della tecnologia, anche il modo in cui interagiamo con essa si evolve. Le prime macchine dipendevano dallo sforzo fisico e dai comandi meccanici, mentre l'informatica moderna ha introdotto i touchscreen e l'input vocale. 

Ora, il riconoscimento dei gesti fa parte del passo successivo, utilizzando movimenti naturali come interfaccia utente. Un semplice cenno, un pizzico o un rapido segno con la mano possono già controllare app, schermi e macchine. 

Questa interazione senza contatto può essere alimentata dalla visione artificiale, una branca dell'intelligenza artificiale che aiuta le macchine a vedere e interpretare ciò che una telecamera riprende. I sistemi di visione artificiale possono essere integrati in smartphone, visori per realtà virtuale (VR) e realtà aumentata (AR), automobili e dispositivi domestici intelligenti, dove i gesti possono sostituire tocchi, clic e pulsanti per un'esperienza utente più fluida.

Il controllo touchless sta diventando sempre più comune nella vita quotidiana. Nei luoghi di lavoro e negli spazi condivisi, evitare il contatto fisico può migliorare l'igiene e la sicurezza. Anche molti prodotti digitali stanno passando all'interazione hands-free e i gesti offrono un modo semplice e intuitivo per controllare i dispositivi senza toccarli.

In questo articolo vedremo cos'è il riconoscimento dei gesti, come la visione artificiale lo rende più accurato e dove viene utilizzato nelle applicazioni reali. Cominciamo!

Che cos'è il riconoscimento dei gesti?

Il riconoscimento dei gesti è una tecnologia di rilevamento che consente alle macchine di comprendere i gesti umani, come i segni delle mani o i movimenti del corpo, e di convertirli in azioni digitali. Invece di toccare uno schermo o premere pulsanti, gli utenti possono controllare i dispositivi attraverso movimenti semplici e naturali. 

Questo rende le interazioni più intuitive ed è il motivo per cui l'input basato sui gesti viene adottato in molti sistemi di controllo basati sull'apprendimento automatico e sull'intelligenza artificiale. In particolare, il riconoscimento dei gesti delle mani è una delle forme più diffuse di riconoscimento dei gesti e spesso si basa sulla visione artificiale. 

In parole povere, una soluzione Vision AI è in grado di individuare le mani in un feed della telecamera, track loro movimenti o i cambiamenti di forma e abbinare tali schemi a un gesto noto per attivare un'azione sullo schermo.

Una parte fondamentale di queste soluzioni è un modello di visione artificiale, addestrato su set di dati di immagini o video etichettati che mostrano diversi gesti delle mani. Grazie a dati di addestramento diversificati e a un'attenta valutazione, il modello è in grado di generalizzare meglio tra diversi utenti, condizioni di illuminazione e sfondi, aiutandolo a riconoscere i gesti in modo più affidabile in contesti reali.

Fig. 1. Dati utilizzati per addestrare un modello di visione artificiale al detect dei punti chiave detect (Fonte)

Esplorazione di diversi tipi di gesti e interazione uomo-computer

Prima di esaminare più da vicino il ruolo che la visione artificiale svolge nel riconoscimento dei gesti, facciamo un passo indietro e vediamo quali tipi di gesti questi sistemi riconoscono tipicamente.

Nella maggior parte dei casi, i gesti si dividono in due categorie: statici e dinamici. I gesti statici sono pose fisse delle mani, come il pollice alzato, il segnale di stop o il segno della pace. Poiché non comportano movimento, spesso possono essere riconosciuti da un singolo fotogramma.

Nel frattempo, i gesti dinamici comportano movimenti nel tempo, come agitare o scorrere la mano nell'aria. Per riconoscerli, un sistema di visione artificiale deve analizzare più fotogrammi in modo da poter track della mano e comprendere la direzione e la tempistica del gesto.

Il ruolo degli algoritmi di visione artificiale nel riconoscimento dei gesti

I sistemi di riconoscimento dei gesti possono essere realizzati in diversi modi. Alcuni sistemi di immissione dati utilizzano sensori indossabili, come guanti o tracker da polso, per catturare i movimenti delle mani. 

Queste configurazioni possono essere accurate, ma non sempre sono pratiche. I dispositivi indossabili devono essere indossati, configurati, ricaricati e sottoposti a manutenzione, e possono risultare limitanti negli spazi condivisi o se utilizzati quotidianamente.

Ecco perché molti sistemi all'avanguardia si affidano invece alla visione artificiale. Grazie a telecamere RGB standard e sensori di profondità o tempo di volo, i dispositivi sono in grado di catturare i movimenti delle mani e del corpo in tempo reale senza che gli utenti debbano indossare dispositivi aggiuntivi. Ciò rende il riconoscimento dei gesti basato sulla visione artificiale particolarmente adatto per smartphone, automobili, smart TV e visori AR e VR.

Ad esempio, modelli di visione artificiale come Ultralytics YOLO11 e il prossimo Ultralytics supportano attività quali il rilevamento di oggetti, il tracciamento di oggetti e la stima della posizione. Queste funzionalità possono essere utilizzate per detect in ogni fotogramma, track movimento nel tempo e mappare punti chiave come le punte delle dita e le articolazioni. Ciò consente di riconoscere gesti quali il palmo della mano alzato per mettere in pausa, il pizzicamento per ingrandire, lo scorrimento per navigare nei menu o il gesto di indicare per selezionare un elemento in AR e VR.

Compiti di visione artificiale utilizzati per il riconoscimento dell'interazione uomo-macchina

Ecco una panoramica di alcune delle principali attività di visione artificiale utilizzate nel riconoscimento dei gesti:

  • Rilevamento oggetti: questa funzione viene utilizzata per individuare le mani in un'immagine o in un fotogramma video, solitamente tracciando dei riquadri attorno ad esse. Aiuta il sistema a concentrarsi sull'area dei gesti e a ignorare i dettagli superflui dello sfondo.
  • Tracciamento degli oggetti: basandosi sul rilevamento degli oggetti, questa attività traccia le mani rilevate su più fotogrammi e ne mantiene l'identità nel tempo. È particolarmente utile per i gesti dinamici, in cui il movimento e la direzione sono fondamentali.
  • Stima della posa: invece di concentrarsi sui riquadri di delimitazione, la stima della posa identifica i punti chiave della mano, come le punte delle dita, le nocche e il polso. Questi punti di riferimento creano uno scheletro della mano semplice che cattura le posizioni delle dita e i movimenti sottili, consentendo una classificazione più dettagliata dei gesti.
  • Segmentazione delle istanze: questa attività mira a separare ciascuna mano dallo sfondo a livello di pixel generando una maschera per ogni mano visibile. È utile in scene disordinate, quando le mani si sovrappongono o quando nell'inquadratura compaiono più mani.

Molte soluzioni di Vision AI utilizzano queste attività insieme come parte di un unico processo. Ad esempio, un sistema potrebbe iniziare con il rilevamento degli oggetti per individuare le mani, quindi utilizzare il tracciamento per seguirle attraverso i fotogrammi per i gesti dinamici. 

Se il gesto dipende dalla posizione delle dita, la stima della posa può aggiungere punti chiave per ottenere dettagli più precisi, mentre la segmentazione delle istanze può aiutare a isolare ciascuna mano in modo più accurato in scene affollate o quando più mani si sovrappongono. Lavorando insieme, questi passaggi forniscono informazioni sia sulla posizione che sul movimento, rendendo il riconoscimento dei gesti più accurato e affidabile.

Come funziona il riconoscimento dei gesti basato sulla visione

Ora che abbiamo una migliore comprensione delle attività di visione artificiale alla base del riconoscimento dei gesti, esaminiamo passo dopo passo come funziona un sistema basato sulla visione.

Un sistema tipico inizia acquisendo il video da una telecamera, talvolta insieme ai dati di profondità, se il dispositivo li supporta. I fotogrammi vengono quindi pre-elaborati utilizzando l'elaborazione delle immagini per renderli più facili da gestire in modo coerente dal modello, ad esempio ridimensionandoli, stabilizzandoli o riducendo il rumore e la sfocatura da movimento.

Successivamente, il sistema identifica le mani nell'inquadratura utilizzando il rilevamento o la segmentazione e le segue nel tempo utilizzando il tracciamento. Se l'applicazione richiede dettagli più precisi, può anche eseguire una stima della posa per estrarre punti chiave come le punte delle dita e le articolazioni. Utilizzando queste informazioni, il modello classifica il gesto, sia che si tratti di una posa in un singolo fotogramma come il pollice alzato o di un modello di movimento come uno swipe.

Infine, il gesto riconosciuto viene mappato su un'azione nell'interfaccia, come lo scorrimento, lo zoom, la selezione di un elemento, la regolazione del volume o il controllo delle interazioni AR e VR. La pipeline esatta può variare: le applicazioni più semplici utilizzano meno passaggi, mentre quelle più complesse combinano rilevamento, tracciamento e stima della posa per una maggiore precisione.

Applicazioni del riconoscimento dei gesti basato sulla visione

Successivamente, vediamo come il riconoscimento dei gesti viene utilizzato nelle applicazioni reali per comprendere le posizioni delle mani.

Interazione basata sui gesti con i sistemi di infotainment delle automobili

Il riconoscimento dei gesti sta iniziando a fare la sua comparsa nelle interfacce dei veicoli intelligenti, in particolare nei sistemi di infotainment. Si tratta di un modo pratico per controllare determinate funzioni con semplici movimenti della mano, che può ridurre la frequenza con cui i conducenti devono toccare i touchscreen o i pulsanti fisici. Ad esempio, un rapido gesto può essere utilizzato per regolare il volume, gestire le chiamate o navigare nei menu sullo schermo. 

Fig. 2. Un conducente che esegue gesti con le mani nel raggio di rilevamento di un sistema di infotainment (Fonte)

Interazioni guidate dai gesti nei videogiochi

Nel mondo dei videogiochi e delle esperienze immersive, il controllo basato sui gesti sta cambiando il modo in cui le persone interagiscono con i mondi virtuali. Anziché affidarsi esclusivamente a controller o joystick, i giocatori possono utilizzare i movimenti naturali delle mani per navigare nei menu, raccogliere oggetti virtuali, controllare i personaggi o attivare azioni all'interno di un gioco.

Fig. 3. Giocare utilizzando i gesti delle mani (Fonte).

Questo tipo di interazione senza contatto può risultare più fluida, specialmente nella realtà aumentata e nella realtà virtuale. Di conseguenza, il tracciamento delle mani e il controllo dei gesti stanno diventando caratteristiche comuni nei visori VR e di realtà mista.

Controllo gestuale senza interruzioni per dispositivi domestici intelligenti

I dispositivi domestici intelligenti come smart TV, altoparlanti e luci connesse stanno iniziando a supportare il controllo basato sui gesti per azioni rapide e senza contatto. Con un semplice movimento della mano, gli utenti possono accendere le luci, regolare il volume o attivare comandi di base senza dover ricorrere a interruttori o telecomandi.

Ad esempio, nei sistemi di intrattenimento domestico, le telecamere di profondità integrate o collegate sono in grado di riconoscere gesti quali scorrere, indicare o alzare una mano. Ciò può facilitare la navigazione nei menu, la modifica delle impostazioni o la conferma delle selezioni dall'altra parte della stanza. Dietro le quinte, i modelli di visione artificiale elaborano in tempo reale le immagini riprese dalla telecamera per detect interpretare questi gesti. 

Controllo dei gesti basato sull'intelligenza artificiale nella robotica 

Consideriamo una situazione in una fabbrica in cui un operaio deve guidare un robot mentre trasporta pezzi, indossa guanti o si trova a una distanza di sicurezza dalle attrezzature in movimento. In questi contesti, raggiungere i pulsanti o il pannello di controllo può essere lento o addirittura pericoloso. 

Al contrario, i sistemi di controllo basati sui gesti possono rappresentare un modo più pratico e senza mani per interagire con queste macchine. Ciò è particolarmente utile per i robot collaborativi, o cobot, progettati per lavorare a fianco delle persone. 

Invece di avvicinarsi a un pannello di controllo, gli operatori possono utilizzare semplici segnali manuali per avviare, arrestare o guidare un robot a distanza. Ciò riduce la dipendenza dai comandi fisici e può favorire flussi di lavoro più sicuri in officina.

I sistemi di controllo avanzati basati sulla visione, resi possibili dai modelli di deep learning o dagli algoritmi di apprendimento, possono anche andare oltre i comandi di base. Sono in grado di interpretare i movimenti più sottili delle mani e rispondere in modo fluido a piccoli cambiamenti di direzione, garantendo una guida e un'automazione più precise. 

Fig. 4. Una mano robotica che analizza il gesto di un utente (Fonte)

Pro e contro della tecnologia di riconoscimento dei gesti

Ecco alcuni dei principali vantaggi dell'utilizzo della tecnologia di riconoscimento dei gesti:

  • Migliore accessibilità: i gesti possono rappresentare un'alternativa per gli utenti che hanno difficoltà a utilizzare tastiere, touchscreen o controller.
  • Funziona a distanza: i gesti possono essere riconosciuti dall'altra parte della stanza, il che è utile per smart TV, chioschi e dispositivi domestici.
  • Flessibile su tutti i dispositivi: set di gesti simili possono funzionare su telefoni, automobili, display intelligenti e visori AR o VR, rendendo l'interazione coerente.

Allo stesso tempo, esistono alcune sfide reali che possono influire sull'accuratezza e sulla coerenza. Ecco alcuni fattori da considerare:

  • Problemi relativi all'illuminazione e alla qualità della telecamera: scarsa illuminazione, riflessi, ombre o telecamere a bassa risoluzione possono ridurre le prestazioni di riconoscimento. Ciò, a sua volta, può influire sul controllo del movimento.
  • Variazioni tra gli utenti: le persone eseguono naturalmente i gesti in modo diverso e le differenze nella dimensione delle mani, nella flessibilità delle dita o negli accessori possono influire sulla precisione.
  • Limiti del movimento veloce: i gesti rapidi possono causare sfocature o far perdere al modello alcuni fotogrammi chiave, specialmente con fotocamere con frame rate basso.

Punti chiave

La tecnologia di riconoscimento dei gesti ha superato i confini dei laboratori di ricerca ed è ora parte integrante dei dispositivi e delle innovazioni di uso quotidiano. Nello specifico, la visione artificiale consente il controllo senza contatto nei videogiochi, nella robotica, nelle case intelligenti e nei sistemi automobilistici. Con il miglioramento dei modelli di visione, queste interfacce senza contatto diventeranno probabilmente più facili da realizzare e più diffuse.

Scopri la nostra community e il nostro repository GitHub per saperne di più sui modelli di visione artificiale. Esplora le nostre pagine dedicate alle soluzioni per conoscere applicazioni come l'IA in agricoltura e la visione artificiale nella logistica. Verifica le nostre opzioni di licenza e inizia a creare il tuo modello di IA per la visione artificiale.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis