Migliorare la stima dei punti chiave della mano con Ultralytics YOLO11
Esplora la stima dei punti chiave della mano basata sull'IA con il supporto di Ultralytics YOLO11 per la pose estimation in applicazioni come il riconoscimento dei gesti in tempo reale.

Di recente, gli interpreti della lingua dei segni al Super Bowl hanno attirato molta attenzione. Quando li guardi cantare la canzone del tuo artista preferito in TV, puoi comprenderli se conosci la lingua dei segni, perché il tuo cervello elabora i movimenti delle loro mani. Ma cosa succederebbe se un computer potesse fare lo stesso? Grazie alle soluzioni di tracciamento manuale basate sull'IA, è possibile per le macchine tracciare e interpretare i movimenti delle mani con una precisione impressionante.
Al centro di queste soluzioni c'è la visione artificiale, un sottocampo dell'IA che consente alle macchine di elaborare e comprendere le informazioni visive. Analizzando immagini e video, la visione artificiale le aiuta a rilevare oggetti, tracciare movimenti e riconoscere gesti complessi con notevole precisione.
Ad esempio, i modelli di visione artificiale come Ultralytics YOLO11 possono essere addestrati per rilevare e analizzare i punti chiave della mano in tempo reale utilizzando la stima della posa. In questo modo, questi modelli possono essere utilizzati per applicazioni come il riconoscimento dei gesti, la traduzione della lingua dei segni e le interazioni AR/VR.
In questo articolo, esploreremo come YOLO11 abilita il tracciamento della mano basato sull'IA, i dataset utilizzati per l'addestramento e come addestrare in modo personalizzato un modello per la stima della posa della mano. Analizzeremo anche le applicazioni nel mondo reale. Cominciamo!
Link to this sectionComprendere il rilevamento dei punti chiave della mano basato sull'IA#
L'IA può essere utilizzata per riconoscere e tracciare i movimenti della mano nei dati visivi identificando punti chiave come il polso, la punta delle dita e le articolazioni delle dita. Un approccio, noto come stima della posa, aiuta i computer a comprendere il movimento umano mappando i punti chiave e analizzando come cambiano nel tempo. Ciò consente ai sistemi di IA di interpretare la postura corporea, i gesti e i pattern di movimento con elevata precisione.
I modelli di visione artificiale rendono tutto ciò possibile analizzando immagini o video per identificare i punti chiave sulla mano e tracciarne il movimento. Una volta mappati questi punti, l'IA può riconoscere i gesti analizzando le relazioni spaziali tra i punti chiave e come cambiano nel tempo.
Ad esempio, se la distanza tra il pollice e l'indice diminuisce, l'IA può interpretarlo come un movimento di presa. Allo stesso modo, tracciare come si muovono i punti chiave in sequenza aiuta a identificare gesti complessi della mano e persino a prevedere i movimenti futuri.

Fig 1. Un esempio di riconoscimento dei punti chiave in una mano usando la visione artificiale.
È interessante notare che la stima della posa per il tracciamento della mano ha aperto possibilità entusiasmanti, dal controllo senza mani dei dispositivi smart a una maggiore precisione robotica e assistenza nelle applicazioni sanitarie. Man mano che l'IA e la visione artificiale continuano a evolversi, il tracciamento della mano svolgerà probabilmente un ruolo sempre più importante nel rendere la tecnologia più interattiva, accessibile e intuitiva nella vita quotidiana.
Link to this sectionEsplorare YOLO11 per la stima della posa#
Prima di immergerci in come creare una soluzione per il tracciamento della mano basato sull'IA, analizziamo più da vicino la stima della posa e come YOLO11 supporta questo task di visione artificiale. A differenza del rilevamento standard degli oggetti, che identifica oggetti interi, la stima della posa si concentra sul rilevamento di punti di riferimento chiave, come articolazioni, arti o bordi, per analizzare il movimento e la postura.
Nello specifico, Ultralytics YOLO11 è progettato per la stima della posa in tempo reale. Sfruttando sia metodi top-down che bottom-up, rileva in modo efficiente le persone e stima i punti chiave in un unico passaggio, superando i modelli precedenti in velocità e precisione.
Pronto all'uso, YOLO11 viene fornito pre-addestrato sul dataset COCO-Pose ed è in grado di riconoscere i punti chiave sul corpo umano, inclusi testa, spalle, gomiti, polsi, fianchi, ginocchia e caviglie.

Fig 2. Utilizzo di YOLO11 per la stima della posa umana.
Oltre alla stima della posa umana, YOLO11 può essere addestrato in modo personalizzato per rilevare punti chiave su una varietà di oggetti, sia animati che inanimati. Questa flessibilità rende YOLO11 un'ottima opzione per un'ampia gamma di applicazioni.
Link to this sectionUna panoramica del dataset Hand Keypoints#
Il primo passo per l'addestramento personalizzato di un modello è raccogliere i dati e annotarli o trovare un dataset esistente che soddisfi le esigenze del progetto. Ad esempio, il dataset Hand Keypoints è un buon punto di partenza per addestrare modelli di visione artificiale per il tracciamento della mano e la stima della posa. Con 26.768 immagini annotate, elimina la necessità di etichettatura manuale.
Può essere utilizzato per addestrare modelli come Ultralytics YOLO11 a imparare rapidamente come rilevare e tracciare i movimenti della mano. Il dataset include 21 punti chiave per mano, coprendo polso, dita e articolazioni. Inoltre, le annotazioni del dataset sono state generate con Google MediaPipe, uno strumento per lo sviluppo di soluzioni basate su IA per l'elaborazione dei media in tempo reale, garantendo un rilevamento dei punti chiave preciso e affidabile.

Fig 3. I 21 punti chiave inclusi nel dataset Hand Keypoints.
L'utilizzo di un dataset strutturato come questo fa risparmiare tempo e consente agli sviluppatori di concentrarsi sull'addestramento e sul perfezionamento dei propri modelli invece che sulla raccolta e sull'etichettatura dei dati. Infatti, il dataset è già suddiviso in sottoinsiemi di addestramento (18.776 immagini) e validazione (7.992 immagini), rendendo facile valutare le prestazioni del modello.
Link to this sectionCome addestrare YOLO11 per la stima della posa della mano#
L'addestramento di YOLO11 per la stima della posa della mano è un processo semplice, specialmente con il pacchetto Python Ultralytics, che rende più facile configurare e addestrare il modello. Poiché il dataset Hand Keypoints è già supportato nella pipeline di addestramento, può essere utilizzato immediatamente senza formattazione aggiuntiva, risparmiando tempo e fatica.
Ecco come funziona il processo di addestramento:
- Configura l'ambiente: il primo passo è installare il pacchetto Python Ultralytics.
- Carica il dataset Hand Keypoints: YOLO11 supporta nativamente questo dataset, quindi può essere scaricato e preparato automaticamente.
- Usa un modello pre-addestrato: puoi iniziare con un modello di stima della posa YOLO11 pre-addestrato, che aiuta a migliorare la precisione e velocizzare il processo di addestramento.
- Addestra il modello: il modello impara a rilevare e tracciare i punti chiave della mano attraversando più cicli di addestramento.
- Monitora le prestazioni: il pacchetto Ultralytics fornisce anche strumenti integrati per tracciare metriche chiave come precisione e perdita, aiutando a garantire che il modello migliori nel tempo.
- Salva e distribuisci: una volta addestrato, il modello può essere esportato e utilizzato per applicazioni di tracciamento della mano in tempo reale.
Link to this sectionValutare il tuo modello addestrato in modo personalizzato#
Seguendo i passaggi per la creazione di un modello personalizzato, noterai che il monitoraggio delle prestazioni è essenziale. Oltre a tracciare i progressi durante l'addestramento, valutare il modello in seguito è fondamentale per assicurarsi che rilevi e tracci accuratamente i punti chiave della mano.
Metriche di prestazione chiave come accuratezza, valori di perdita e precisione media (mAP) aiutano a valutare le prestazioni del modello. Il pacchetto Python Ultralytics fornisce strumenti integrati per visualizzare i risultati e confrontare le previsioni con le annotazioni reali, rendendo più facile individuare le aree di miglioramento.
Per comprendere meglio le prestazioni del modello, puoi controllare i grafici di valutazione come le curve di perdita, i grafici precisione-richiamo e le matrici di confusione, che vengono generati automaticamente nei log di addestramento.
Questi grafici aiutano a identificare problemi come l'overfitting (quando il modello memorizza i dati di addestramento ma ha difficoltà con i nuovi dati) o l'underfitting (quando il modello non riesce a imparare abbastanza bene i pattern per eseguire accuratamente) e guidano le regolazioni per migliorare la precisione. Inoltre, testare il modello su nuove immagini o video è importante per vedere come funziona in scenari reali.
Link to this sectionApplicazioni delle soluzioni di tracciamento della mano basate sull'IA#
Successivamente, passiamo in rassegna alcune delle applicazioni più di impatto della stima dei punti chiave della mano con Ultralytics YOLO11.
Link to this sectionRiconoscimento dei gesti in tempo reale con YOLO11#
Immagina di poter regolare il volume della tua TV semplicemente agitando la mano o di navigare in un sistema di domotica con un semplice swipe nell'aria. Il riconoscimento dei gesti in tempo reale basato su YOLO11 rende possibili queste interazioni touch-free rilevando accuratamente i movimenti della mano in tempo reale.
Questo funziona utilizzando telecamere IA per tracciare i punti chiave sulla tua mano e interpretare i gesti come comandi. Telecamere con rilevamento della profondità, sensori a infrarossi o anche normali webcam catturano i movimenti della mano, mentre YOLO11 può elaborare i dati per riconoscere gesti diversi. Ad esempio, un sistema del genere può distinguere tra uno swipe per cambiare brano, un pinch per ingrandire o un movimento circolare per regolare il volume.
Link to this sectionRilevamento dei punti chiave della mano basato sull'IA per il riconoscimento della lingua dei segni#
Le soluzioni di IA per il tracciamento della mano possono supportare una comunicazione fluida tra una persona sorda e qualcuno che non conosce la lingua dei segni. Ad esempio, dispositivi smart integrati con telecamere e YOLO11 possono essere utilizzati per tradurre istantaneamente la lingua dei segni in testo o voce.
Grazie ad avanzamenti come YOLO11, gli strumenti di traduzione della lingua dei segni stanno diventando più precisi e accessibili. Ciò ha un impatto su applicazioni come tecnologie assistive, servizi di traduzione dal vivo e piattaforme educative. L'IA può aiutare a colmare le lacune comunicative e promuovere l'inclusività in luoghi di lavoro, scuole e spazi pubblici.
Link to this sectionVisione artificiale per il tracciamento della mano: migliorare le esperienze AR e VR#
Hai mai giocato a un gioco di realtà virtuale (VR) in cui potevi afferrare oggetti senza usare un controller? Il tracciamento della mano basato sulla visione artificiale rende possibile tutto ciò consentendo agli utenti di interagire in modo naturale in ambienti di realtà aumentata (AR) e VR.

Fig 4. Il tracciamento della mano è una parte fondamentale delle applicazioni AR e VR.
Con la stima dei punti chiave della mano utilizzando modelli come Ultralytics YOLO11, l'IA traccia i movimenti in tempo reale, abilitando gesti come pizzicare, afferrare e scorrere. Ciò migliora il gaming, la formazione virtuale e la collaborazione remota, rendendo le interazioni più intuitive. Man mano che la tecnologia di tracciamento della mano migliora, la AR e la VR sembreranno ancora più immersive e realistiche.
Link to this sectionPunti chiave#
La stima dei punti chiave della mano con Ultralytics YOLO11 sta rendendo le soluzioni di tracciamento della mano basate sull'IA più accessibili e affidabili. Dal riconoscimento dei gesti in tempo reale all'interpretazione della lingua dei segni e alle applicazioni AR/VR, la visione artificiale sta aprendo nuove possibilità nell'interazione uomo-computer.
Inoltre, i processi semplificati di addestramento personalizzato e di perfezionamento stanno aiutando gli sviluppatori a costruire modelli efficienti per vari utilizzi nel mondo reale. Man mano che la tecnologia di visione artificiale si evolve, possiamo aspettarci ancora più innovazioni in settori come sanità, robotica, gaming e sicurezza.
Interagisci con la nostra community ed esplora i progressi dell'AI sul nostro repository GitHub. Scopri l'impatto dell'AI nella produzione e della computer vision nell'assistenza sanitaria attraverso le pagine delle nostre soluzioni. Esplora i nostri piani di licenza e inizia oggi stesso il tuo viaggio nell'AI!






