Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

La Vision AI abilita la tecnologia di riconoscimento dei gesti senza contatto

Esplora come la computer vision alimenta la tecnologia di riconoscimento dei gesti per rilevare, tracciare e comprendere i gesti delle mani in varie applicazioni.

ABAbirami Vina
4 min read
Vision AI che alimenta il riconoscimento dei gesti senza contatto

Con l'evoluzione della tecnologia, cambia anche il modo in cui interagiamo con essa. Le prime macchine dipendevano dallo sforzo fisico e da controlli meccanici, mentre la moderna informatica ha introdotto touchscreen e input vocali.

Ora, il riconoscimento gestuale fa parte del passo successivo, usando i movimenti naturali come interfaccia utente. Un semplice gesto, un pizzico o un rapido segnale della mano possono già controllare app, schermi e macchine.

Questa interazione touch-free può essere potenziata dalla computer vision, un ramo dell'IA che aiuta le macchine a vedere e interpretare ciò che una fotocamera cattura. I sistemi di Vision AI possono essere integrati in smartphone, visori per la realtà virtuale (VR) e aumentata (AR), automobili e dispositivi smart home, dove i gesti possono sostituire tocchi, clic e pulsanti per un'esperienza utente più fluida.

Il controllo touchless sta diventando sempre più comune nella vita quotidiana. Nei luoghi di lavoro e negli spazi condivisi, evitare il contatto fisico può migliorare l'igiene e la sicurezza. Molti prodotti digitali si stanno inoltre orientando verso l'interazione hands-free, e i gesti offrono un modo semplice e intuitivo per controllare i dispositivi senza toccarli.

In questo articolo, esploreremo cos'è il riconoscimento gestuale, come la computer vision lo rende più accurato e dove viene utilizzato nelle applicazioni del mondo reale. Iniziamo!

Link to this sectionCos'è il riconoscimento gestuale?#

Il riconoscimento gestuale è una tecnologia di rilevamento che permette alle macchine di comprendere i gesti umani, come segnali delle mani o movimenti del corpo, e convertirli in azioni digitali. Invece di toccare uno schermo o premere pulsanti, gli utenti possono controllare i dispositivi attraverso movimenti semplici e naturali.

Ciò rende le interazioni più intuitive ed è il motivo per cui l'input basato sui gesti viene adottato in molti sistemi di controllo basati su machine learning e IA. In particolare, il riconoscimento dei gesti delle mani è una delle forme più utilizzate di riconoscimento gestuale, e spesso si basa sulla computer vision.

In parole semplici, una soluzione di Vision AI può individuare le mani nel flusso video di una fotocamera, tracciare come si muovono o cambiano forma e abbinare quei pattern a un gesto noto per attivare un'azione sullo schermo.

Una parte fondamentale di queste soluzioni è un computer vision model, addestrato su dataset di immagini o video etichettati che mostrano diversi gesti delle mani. Con dati di addestramento diversificati e un'attenta valutazione, il modello può generalizzare meglio tra utenti, condizioni di illuminazione e sfondi differenti, aiutandolo a riconoscere i gesti in modo più affidabile in contesti reali.

Dati utilizzati per addestrare un modello di computer vision per rilevare i keypoint dei gesti

Fig 1. Dati utilizzati per addestrare un modello di computer vision a rilevare i keypoint dei gesti (Source)

Link to this sectionEsplorare diversi tipi di gesti e l'interazione uomo-macchina#

Prima di esaminare più da vicino il ruolo che la computer vision gioca nel riconoscimento gestuale, facciamo un passo indietro e analizziamo i tipi di gesti che questi sistemi riconoscono solitamente.

Nella maggior parte dei casi, i gesti rientrano in due categorie: statici e dinamici. I gesti statici sono pose fisse delle mani, come un pollice in su, un segnale di stop o il segno di vittoria. Poiché non comportano movimento, possono essere spesso riconosciuti da un singolo fotogramma.

Al contrario, i gesti dinamici implicano un movimento nel tempo, come salutare o scorrere nell'aria. Per riconoscerli, un sistema di Vision AI deve analizzare più fotogrammi in modo da poter tracciare come si muove la mano e comprendere la direzione e la tempistica del gesto.

Link to this sectionIl ruolo degli algoritmi di computer vision nel riconoscimento gestuale#

I sistemi di riconoscimento gestuale possono essere costruiti in modi diversi. Alcuni sistemi di input usano sensori indossabili, come guanti o tracker montati sul polso, per catturare il movimento della mano.

Queste configurazioni possono essere accurate, ma non sono sempre pratiche. I dispositivi indossabili devono essere indossati, configurati, caricati e mantenuti, e possono risultare limitanti negli spazi condivisi o nell'uso quotidiano.

Ecco perché molti sistemi all'avanguardia si basano invece sulla computer vision. Con fotocamere RGB standard e sensori di profondità o di tempo di volo, i dispositivi possono catturare i movimenti della mano e del corpo in tempo reale senza che gli utenti debbano indossare dispositivi aggiuntivi. Questo rende il riconoscimento gestuale basato sulla visione perfetto per smartphone, auto, smart TV e visori AR e VR.

Ad esempio, modelli di computer vision come Ultralytics YOLO11 e il prossimo Ultralytics YOLO26 supportano attività come object detection, object tracking e pose estimation. Queste capacità possono essere utilizzate per rilevare le mani in ogni fotogramma, tracciarne il movimento nel tempo e mappare keypoint come punte delle dita e articolazioni. Ciò rende possibile riconoscere gesti come un palmo sollevato per mettere in pausa, un pizzico per zoomare, uno swipe per navigare tra i menu o un gesto di puntamento per selezionare un elemento in AR e VR.

Link to this sectionAttività di computer vision utilizzate per il riconoscimento dell'interazione uomo-macchina#

Ecco una panoramica di alcune delle principali computer vision tasks utilizzate nel riconoscimento gestuale:

  • Object detection: Questa attività è utilizzata per localizzare le mani in un'immagine o in un fotogramma video, solitamente disegnando bounding boxes attorno ad esse. Aiuta il sistema a concentrarsi sull'area del gesto e a ignorare dettagli di sfondo inutili.
  • Object tracking: Basandosi sull'object detection, questa attività traccia le mani rilevate attraverso più fotogrammi e ne mantiene l'identità nel tempo. È particolarmente utile per i gesti dinamici, dove il movimento e la direzione sono cruciali.
  • Pose estimation: Invece di concentrarsi sui bounding boxes, la pose estimation identifica keypoint sulla mano, come punte delle dita, nocche e polso. Questi punti di riferimento creano uno scheletro semplice della mano che cattura le posizioni delle dita e i movimenti sottili, consentendo una classificazione dei gesti più dettagliata.
  • Instance segmentation: Questa attività mira a separare ogni mano dallo sfondo a livello di pixel generando una maschera per ogni mano visibile. È utile in scene affollate, quando le mani si sovrappongono o quando più mani appaiono nel fotogramma.

Molte soluzioni di Vision AI usano queste attività insieme come parte di un'unica pipeline. Ad esempio, un sistema potrebbe iniziare con l'object detection per trovare le mani, poi utilizzare il tracking per seguirle attraverso i fotogrammi per i gesti dinamici.

Se il gesto dipende dal posizionamento delle dita, la pose estimation può aggiungere keypoint per dettagli più fini, mentre l'instance segmentation può aiutare a isolare ogni mano in modo più preciso in scene affollate o quando più mani si sovrappongono. Lavorando insieme, questi passaggi forniscono informazioni sia sulla posizione che sul movimento, rendendo il riconoscimento gestuale più accurato e affidabile.

Link to this sectionCome funziona il riconoscimento gestuale basato sulla visione#

Ora che abbiamo una migliore comprensione delle attività di computer vision dietro il riconoscimento gestuale, diamo un'occhiata passo dopo passo a come funziona un sistema basato sulla visione.

Un sistema tipico inizia catturando video da una fotocamera, a volte insieme ai dati di profondità se il dispositivo lo supporta. I fotogrammi vengono poi preelaborati usando l'elaborazione delle immagini per renderli più facili da gestire in modo coerente per il modello, ad esempio ridimensionandoli, stabilizzandoli o riducendo il rumore e il motion blur.

Successivamente, il sistema identifica le mani nel fotogramma usando detection o segmentation e le segue nel tempo usando il tracking. Se l'applicazione richiede dettagli più fini, potrebbe anche eseguire la pose estimation per estrarre keypoint come punte delle dita e articolazioni. Usando queste informazioni, il modello classifica il gesto, che si tratti di una posa a singolo fotogramma come un pollice in su o di un pattern di movimento come uno swipe.

Infine, il gesto riconosciuto viene mappato su un'azione nell'interfaccia, come scorrere, zoomare, selezionare un elemento, regolare il volume o controllare interazioni AR e VR. La pipeline esatta può variare: le applicazioni più semplici usano meno passaggi, mentre quelle più complesse combinano detection, tracking e pose estimation per una migliore precisione.

Link to this sectionApplicazioni del riconoscimento gestuale basato sulla visione#

Ora, vediamo come il riconoscimento gestuale viene utilizzato nelle applicazioni del mondo reale per comprendere le posizioni delle mani.

Link to this sectionInterazione basata sui gesti con i sistemi di infotainment delle auto#

Il riconoscimento gestuale sta iniziando ad apparire nelle interfacce dei veicoli intelligenti, specialmente nei sistemi di infotainment. È un modo conveniente per controllare alcune funzionalità con semplici movimenti della mano, il che può ridurre la frequenza con cui i conducenti devono raggiungere touchscreen o pulsanti fisici. Ad esempio, un gesto rapido può essere utilizzato per regolare il volume, gestire le chiamate o navigare tra i menu sullo schermo.

Un conducente che esegue gesti con le mani nel raggio di rilevamento di un sistema di infotainment

Fig 2. Un conducente che esegue gesti con le mani nel raggio di rilevamento di un sistema di infotainment (Source)

Link to this sectionInterazioni guidate dai gesti nel gaming#

Nel gaming e nelle esperienze immersive, il controllo basato sui gesti sta cambiando il modo in cui le persone interagiscono con i mondi virtuali. Invece di affidarsi solo a controller o joystick, i giocatori possono usare movimenti naturali della mano per navigare nei menu, raccogliere oggetti virtuali, controllare personaggi o attivare azioni in un gioco.

Giocare ai videogiochi usando gesti delle mani

Fig 3. Giocare usando i gesti delle mani (Source).

Questo tipo di interazione touch-free può risultare più fluido, specialmente in AR e VR. Di conseguenza, il tracciamento delle mani e il controllo gestuale stanno diventando funzionalità comuni nei visori VR e di realtà mista.

Link to this sectionControllo gestuale fluido per dispositivi smart home#

Smart home devices come smart TV, altoparlanti e luci connesse stanno iniziando a supportare il controllo basato sui gesti per azioni rapide e touch-free. Con un semplice movimento della mano, gli utenti possono accendere le luci, regolare il volume o attivare comandi base senza ricorrere a interruttori o telecomandi.

Ad esempio, nelle configurazioni di home entertainment, le fotocamere di profondità integrate o connesse possono riconoscere gesti come scorrere, puntare o sollevare una mano. Ciò può facilitare la navigazione nei menu, la modifica delle impostazioni o la conferma delle selezioni dall'altra parte della stanza. Dietro le quinte, i modelli di computer vision elaborano il flusso video in tempo reale per rilevare e interpretare questi gesti.

Link to this sectionControllo gestuale abilitato dall'intelligenza artificiale nella robotica#

Immagina una situazione in una fabbrica in cui un lavoratore deve guidare un robot mentre trasporta pezzi, indossa guanti o si trova a una distanza di sicurezza da attrezzature in movimento. In questi contesti, raggiungere pulsanti o un pannello di controllo può essere lento o addirittura pericoloso.

Al contrario, i sistemi di controllo basati sui gesti possono essere un modo più pratico e hands-free per interagire con queste macchine. Ciò è particolarmente utile per i robots collaborativi, o cobot, progettati per lavorare a fianco delle persone.

Invece di avvicinarsi a un pannello di controllo, gli operatori possono usare semplici segnali manuali per avviare, arrestare o guidare un robot a distanza. Ciò riduce la dipendenza dai controlli fisici e può favorire flussi di lavoro più sicuri nell'area di produzione.

I sistemi di controllo avanzati basati sulla visione, abilitati da modelli di deep learning o algoritmi di apprendimento, possono andare oltre i comandi di base. Possono interpretare movimenti della mano più raffinati e rispondere in modo fluido a piccoli cambiamenti di direzione e a indicazioni e automazioni più precise.

Una mano robotica che analizza il gesto di un utente

Fig 4. Una mano robotica che analizza il gesto di un utente (Source)

Link to this sectionPro e contro della tecnologia di riconoscimento gestuale#

Ecco alcuni dei principali vantaggi dell'utilizzo della tecnologia di riconoscimento gestuale:

  • Migliore accessibilità: I gesti possono offrire un'alternativa per gli utenti che trovano difficile usare tastiere, touchscreen o controller.
  • Funziona a distanza: I gesti possono essere riconosciuti dall'altra parte di una stanza, il che è utile per smart TV, chioschi e dispositivi domestici.
  • Flessibile tra i dispositivi: Set di gesti simili possono funzionare su telefoni, auto, smart display e visori AR o VR, rendendo l'interazione coerente.

Allo stesso tempo, ci sono alcune sfide reali che possono influenzare l'accuratezza e la coerenza. Ecco alcuni fattori da considerare:

  • Problemi di illuminazione e qualità della fotocamera: Scarsa illuminazione, riflessi, ombre o fotocamere a bassa risoluzione possono ridurre le prestazioni di riconoscimento. Questo, a sua volta, può influire sul controllo del movimento.
  • Variazione tra gli utenti: Le persone eseguono naturalmente i gesti in modi diversi, e differenze nelle dimensioni della mano, nella flessibilità delle dita o negli accessori possono influenzare l'accuratezza.
  • Limitazioni dei movimenti rapidi: I gesti veloci possono introdurre motion blur o causare la perdita di fotogrammi chiave da parte del modello, specialmente su fotocamere con frame rate inferiore.

Link to this sectionPunti chiave#

La tecnologia di riconoscimento gestuale è uscita dai laboratori di ricerca ed è ora parte di dispositivi e innovazioni quotidiane. In particolare, la computer vision abilita il controllo touch-free nel gaming, nella robotica, nelle smart home e nei sistemi automobilistici. Man mano che i modelli di visione migliorano, queste interfacce touch-free diventeranno probabilmente più facili da costruire e più ampiamente utilizzate.

Scopri la nostra community e il nostro GitHub repository per saperne di più sui modelli di computer vision. Esplora le nostre pagine di soluzioni per leggere di applicazioni come l'AI in agriculture e la computer vision in logistics. Controlla le nostre licensing options e inizia a costruire il tuo modello di Vision AI.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning