Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Scoprite la stima dei punti chiave della mano guidata dall'intelligenza artificiale con il supporto di Ultralytics YOLO11 per la stima della posa in applicazioni come il riconoscimento dei gesti in tempo reale.
Di recente, gli interpreti del linguaggio dei segni al Super Bowl hanno guadagnato molta attenzione. Quando li guardate cantare la canzone del vostro artista preferito in TV, potete capirli se conoscete il linguaggio dei segni perché il vostro cervello elabora i movimenti delle loro mani. Ma cosa succederebbe se un computer potesse fare lo stesso? Grazie alle soluzioni di hand-tracking basate sull'intelligenza artificiale, è possibile per le macchine track e interpretare i movimenti delle mani con una precisione impressionante.
Al centro di queste soluzioni c'è la computer vision, un sottocampo dell'IA che consente alle macchine di elaborare e comprendere le informazioni visive. Analizzando immagini e video, la Vision AI aiuta a detect gli oggetti, a track movimenti e a riconoscere gesti complessi con notevole precisione.
Ad esempio, i modelli di visione artificiale come Ultralytics YOLO11 possono essere addestrati per detect e analizzare i punti chiave della mano in tempo reale utilizzando la stima della posa. In questo modo, questi modelli possono essere utilizzati per applicazioni come il riconoscimento dei gesti, la traduzione del linguaggio dei segni e le interazioni AR/VR.
In questo articolo analizzeremo come YOLO11 consente il tracciamento della mano basato sull'intelligenza artificiale, i set di dati utilizzati per l'addestramento e come addestrare un modello personalizzato per la stima della posa della mano. Verranno inoltre analizzate le applicazioni del mondo reale. Iniziamo!
Comprensione del rilevamento dei keypoint della mano basato sull'IA
L'intelligenza artificiale può essere utilizzata per riconoscere e track movimenti della mano nei dati visivi identificando punti chiave come il polso, la punta delle dita e le articolazioni delle dita. Un approccio, noto come stima della posa, aiuta i computer a comprendere il movimento umano mappando i punti chiave e analizzando come cambiano nel tempo. Ciò consente ai sistemi di intelligenza artificiale di interpretare la postura del corpo, i gesti e i modelli di movimento con un'elevata precisione.
I modelli di visione computerizzata lo rendono possibile analizzando immagini o video per identificare i punti chiave della mano e track movimento. Una volta mappati questi punti, l'intelligenza artificiale può riconoscere i gesti analizzando le relazioni spaziali tra i punti chiave e il loro cambiamento nel tempo.
Ad esempio, se la distanza tra un pollice e un dito indice diminuisce, l'IA può interpretarlo come un movimento di pizzicamento. Allo stesso modo, tracciare come i keypoint si muovono in sequenza aiuta a identificare gesti complessi della mano e persino a prevedere movimenti futuri.
Fig 1. Un esempio di riconoscimento dei keypoint in una mano tramite computer vision.
È interessante notare come la stima della posa per il tracciamento della mano abbia aperto possibilità entusiasmanti, dal controllo a mani libere dei dispositivi intelligenti al miglioramento della precisione robotica e all'assistenza nelle applicazioni sanitarie. Con la continua evoluzione dell'IA e della computer vision, è probabile che il tracciamento della mano svolga un ruolo sempre più importante nel rendere la tecnologia più interattiva, accessibile e intuitiva nella vita di tutti i giorni.
Esplorazione di YOLO11 per la stima della posa
Prima di scoprire come creare una soluzione per il tracciamento della mano basata sull'intelligenza artificiale, diamo un'occhiata più da vicino alla stima della posa e a come YOLO11 supporta questa attività di computer vision. A differenza del rilevamento di oggetti standard, che identifica interi oggetti, la stima della posa si concentra sul rilevamento di punti di riferimento chiave, come articolazioni, arti o bordi, per analizzare il movimento e la postura.
In particolare, Ultralytics YOLO11 è stato progettato per la stima della posa in tempo reale. Sfruttando metodi top-down e bottom-up, rileva in modo efficiente le persone e stima i punti chiave in un unico passaggio, superando i modelli precedenti in velocità e precisione.
YOLO11 viene pre-addestrato sul set di datiCOCO ed è in grado di riconoscere i punti chiave del corpo umano, tra cui testa, spalle, gomiti, polsi, fianchi, ginocchia e caviglie.
Figura 2. Utilizzo di YOLO11 per la stima della posa umana.
Oltre alla stima della posa umana, YOLO11 può essere addestrato in modo personalizzato per detect punti chiave su una varietà di oggetti, sia animati che inanimati. Questa flessibilità rende YOLO11 un'ottima opzione per un'ampia gamma di applicazioni.
Una panoramica del dataset Hand Keypoints
Il primo passo per l'addestramento personalizzato di un modello è la raccolta e l'annotazione dei dati, oppure la ricerca di un dataset esistente che si adatti alle esigenze del progetto. Ad esempio, il dataset Hand Keypoints è un buon punto di partenza per addestrare modelli di Vision AI per il tracciamento delle mani e la stima della posa. Con 26.768 immagini annotate, elimina la necessità di etichettatura manuale.
Può essere utilizzato per addestrare modelli come Ultralytics YOLO11 per imparare rapidamente a detect e track movimenti della mano. Il set di dati comprende 21 punti chiave per mano, che coprono il polso, le dita e le articolazioni. Inoltre, le annotazioni del set di dati sono state generate con Google MediaPipe, uno strumento per lo sviluppo di soluzioni basate sull'intelligenza artificiale per l'elaborazione dei media in tempo reale, garantendo un rilevamento preciso e affidabile dei punti chiave.
Fig. 3. I 21 punti chiave inclusi nel set di dati Hand Keypoints.
L'utilizzo di un dataset strutturato come questo fa risparmiare tempo e consente agli sviluppatori di concentrarsi sull'addestramento e sulla messa a punto dei propri modelli anziché sulla raccolta e l'etichettatura dei dati. Infatti, il dataset è già suddiviso in sottoinsiemi di addestramento (18.776 immagini) e convalida (7.992 immagini), il che semplifica la valutazione delle prestazioni del modello.
Come addestrare YOLO11 per la stima della posa della mano
L'addestramento di YOLO11 per la stima della posa della mano è un processo semplice, soprattutto con il pacchettoUltralytics Python , che facilita l'impostazione e l'addestramento del modello. Poiché il set di dati Hand Keypoints è già supportato nella pipeline di addestramento, può essere utilizzato subito senza formattazioni aggiuntive, risparmiando tempo e fatica.
Ecco come funziona il processo di training:
Impostazione dell'ambiente: Il primo passo è installare il pacchetto Ultralytics Python .
Caricare il set di dati Hand Keypoints: YOLO11 supporta questo set di dati in modo nativo, quindi può essere scaricato e preparato automaticamente.
Utilizzare un modello pre-addestrato: È possibile iniziare con un modello di stima della posa YOLO11 pre-addestrato, che contribuisce a migliorare la precisione e a velocizzare il processo di addestramento.
Addestrare il modello: Il modello impara a detect e a track i punti chiave della mano attraverso più cicli di addestramento.
Monitoraggio delle prestazioni: Il pacchetto Ultralytics fornisce anche strumenti integrati per track metriche chiave come l'accuratezza e la perdita, aiutando a garantire il miglioramento del modello nel tempo.
Salva e distribuisci: Una volta addestrato, il modello può essere esportato e utilizzato per applicazioni di tracciamento della mano in tempo reale.
Valutazione del modello addestrato personalizzato
Seguendo i passaggi per creare un modello personalizzato, noterai che il monitoraggio delle prestazioni è essenziale. Oltre a monitorare i progressi durante il training, valutare il modello in seguito è fondamentale per assicurarsi che rilevi e tracci accuratamente i keypoint della mano.
Le principali metriche di performance, come l'accuratezza, i valori di perdita e la precisione mediamAP), aiutano a valutare le prestazioni del modello. Il pacchetto Ultralytics Python fornisce strumenti integrati per visualizzare i risultati e confrontare le previsioni con le annotazioni reali, rendendo più facile individuare le aree di miglioramento.
Per comprendere meglio le prestazioni del modello, è possibile consultare i grafici di valutazione come le curve di perdita, i grafici precisione-richiamo e le matrici di confusione, che vengono generati automaticamente nei log di addestramento.
Questi grafici aiutano a identificare problemi come l'overfitting (quando il modello memorizza i dati di addestramento ma ha difficoltà con i nuovi dati) o l'underfitting (quando il modello non riesce ad apprendere schemi sufficientemente bene da eseguire con precisione) e guidano le modifiche per migliorare l'accuratezza. Inoltre, testare il modello su nuove immagini o video è importante per vedere come funziona in scenari reali.
Applicazioni di soluzioni di tracciamento manuale basate sull'IA
Riconoscimento dei gesti in tempo reale con YOLO11
Immaginiamo di poter regolare il volume del televisore con un semplice gesto della mano o di poter navigare in un sistema domestico intelligente con un semplice passaggio del dito. Il riconoscimento dei gesti in tempo reale di YOLO11 rende possibili queste interazioni touch-free rilevando accuratamente i movimenti della mano in tempo reale.
Questo funziona utilizzando telecamere AI per track punti chiave della mano e interpretare i gesti come comandi. Telecamere con rilevamento della profondità, sensori a infrarossi o anche normali webcam catturano i movimenti della mano, mentre YOLO11 può elaborare i dati per riconoscere i diversi gesti. Ad esempio, questo sistema è in grado di distinguere tra uno swipe per cambiare canzone, un pinch per ingrandire o un movimento circolare per regolare il volume.
Rilevamento dei punti chiave della mano basato sull'IA per il riconoscimento della lingua dei segni
Le soluzioni di intelligenza artificiale per il tracciamento delle mani possono supportare la comunicazione senza soluzione di continuità tra una persona sorda e una persona che non conosce il linguaggio dei segni. Ad esempio, i dispositivi intelligenti integrati con telecamere e YOLO11 possono essere utilizzati per tradurre istantaneamente il linguaggio dei segni in testo o parlato.
Grazie a progressi come YOLO11, gli strumenti di traduzione della lingua dei segni stanno diventando più precisi e accessibili. Questo ha un impatto su applicazioni come le tecnologie assistive, i servizi di traduzione dal vivo e le piattaforme educative. L'intelligenza artificiale può contribuire a colmare le lacune comunicative e a promuovere l'inclusività nei luoghi di lavoro, nelle scuole e negli spazi pubblici.
Computer vision per il tracciamento della mano: miglioramento delle esperienze AR e VR
Hai mai giocato a un gioco di realtà virtuale (VR) in cui potevi afferrare oggetti senza usare un controller? Il tracciamento delle mani basato sulla computer vision lo rende possibile, consentendo agli utenti di interagire in modo naturale in ambienti di realtà aumentata (AR) e VR.
Fig. 4. Il tracciamento della mano è una parte fondamentale delle applicazioni AR e VR.
Con la stima dei punti chiave della mano tramite modelli come Ultralytics YOLO11, l'intelligenza artificiale traccia i movimenti in tempo reale, consentendo gesti come pizzicare, afferrare e scorrere. Questo migliora i giochi, la formazione virtuale e la collaborazione a distanza, rendendo le interazioni più intuitive. Con il miglioramento della tecnologia di tracciamento delle mani, l'AR e la VR saranno ancora più coinvolgenti e realistiche.
Punti chiave
La stima dei punti chiave della mano con Ultralytics YOLO11 rende più accessibili e affidabili le soluzioni di hand-tracking guidate dall'intelligenza artificiale. Dal riconoscimento dei gesti in tempo reale all'interpretazione del linguaggio dei segni e alle applicazioni AR/VR, la computer vision sta aprendo nuove possibilità nell'interazione uomo-macchina.
Inoltre, i processi semplificati di addestramento personalizzato e fine-tuning stanno aiutando gli sviluppatori a creare modelli efficienti per vari usi nel mondo reale. Con l'evolversi della tecnologia di computer vision, possiamo aspettarci ancora più innovazioni in aree come l'assistenza sanitaria, la robotica, il gaming e la sicurezza.