Scopri come funziona la stima della posa, le sue applicazioni reali e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.
Quando vedi una persona accasciata o che sta in piedi con le spalle indietro, è subito chiaro se ha una postura scorretta o sicura. Non c'è bisogno che qualcuno te lo spieghi. Questo perché, nel corso del tempo, abbiamo imparato naturalmente a interpretare il linguaggio del corpo.
Grazie all'esperienza e all'osservazione, il nostro cervello è diventato molto bravo a riconoscere la postura di vari oggetti, compresi gli esseri umani. Grazie ai recenti progressi dell'intelligenza artificiale (AI) e della computer vision, un campo che permette alle macchine di interpretare le informazioni visive del mondo, anche le macchine stanno iniziando ad apprendere e a replicare questa abilità.
La stima della posa è un'attività di computer vision che aiuta le macchine a capire la posizione e l'orientamento di una persona o di un oggetto guardando immagini o video. Lo fa identificando i punti chiave del corpo, come le articolazioni e gli arti, per capire come una persona, o addirittura un oggetto, si sta muovendo.
Questa tecnologia viene ampiamente utilizzata in campi come il fitness, la sanità e l'animazione. Negli ambienti di lavoro, ad esempio, può essere utilizzata per monitorare la postura dei dipendenti e supportare le iniziative di sicurezza e benessere. Modelli di visione artificiale come Ultralytics YOLO11 rendono possibile tutto ciò stimando le pose umane in tempo reale.
In questo articolo daremo un'occhiata più da vicino alla stima della posa e al suo funzionamento, insieme a casi d'uso reali in cui fa la differenza. Iniziamo!
Le ricerche sulla stima della posa sono iniziate alla fine degli anni '60 e '70. Nel corso degli anni, gli approcci a questa attività di computer vision sono passati dalla matematica e dalla geometria di base a metodi più avanzati guidati dall'intelligenza artificiale.
Inizialmente, le tecniche dipendevano da angoli di ripresa fissi e punti di riferimento noti. In seguito, si sono evolute includendo modelli 3D e corrispondenza di caratteristiche. Oggi, modelli di deep learning come YOLO11 sono in grado di rilevare la posizione del corpo in tempo reale da immagini o video, rendendo la stima della posa più veloce e accurata che mai.
Con il miglioramento della tecnologia, i ricercatori hanno visto le potenziali applicazioni della possibilità di monitorare e tracciare le pose di vari oggetti, in particolare di esseri umani e animali. La stima della posa è particolarmente importante perché consente agli strumenti di intelligenza artificiale di comprendere e misurare la postura e il movimento in modi che prima non erano possibili.
Ad esempio, permette ai computer di riconoscere i gesti per interagire a mani libere, analizza i movimenti degli atleti per migliorare le prestazioni, alimenta animazioni realistiche nei videogiochi e supporta persino l'assistenza sanitaria monitorando i progressi di guarigione dei pazienti.
La stima della posa è diversa da altre attività di computer vision come il rilevamento degli oggetti e la segmentazione delle istanze. Questi compiti si concentrano principalmente sull'identificazione e sulla localizzazione degli oggetti all'interno di un'immagine.
Il rilevamento degli oggetti, ad esempio, disegna dei riquadri di delimitazione intorno a oggetti come persone, veicoli o animali per indicarne la presenza e la posizione. La segmentazione delle istanze fa un ulteriore passo avanti delineando la forma precisa di ogni oggetto a livello di pixel.
Tuttavia, entrambi questi metodi si preoccupano principalmente di sapere cosa sia l'oggetto e dove si trovi, senza fornire alcuna informazione su come sia posizionato l'oggetto o su cosa stia facendo. È qui che la stima della posa diventa fondamentale.
Identificando i punti chiave del corpo, come i gomiti, le ginocchia o persino la coda, la stima della posa può interpretare la postura e il movimento. Ciò consente una comprensione più approfondita delle azioni, dei gesti e delle dinamiche del corpo, compreso il movimento nello spazio 3D.
I modelli di stima della posa seguono generalmente due approcci principali: bottom-up e top-down. Nell'approccio bottom-up, il modello rileva prima i singoli punti chiave, come gomiti, ginocchia o spalle, e poi li raggruppa per capire a quale persona o oggetto appartengono. Al contrario, l'approccio top-down inizia rilevando prima ogni oggetto (ad esempio una persona nell'immagine) e poi individua i punti chiave per quell'oggetto specifico.
Alcuni modelli più recenti, come YOLO11, combinano i vantaggi di entrambi gli approcci. Mantengono l'efficienza del metodo bottom-up saltando la fase di raggruppamento manuale, ma sfruttano anche la precisione dei sistemi top-down rilevando le persone e stimando la loro posa in una sola volta, in un unico processo semplificato.
Mentre ti spieghiamo come funzionano i modelli di stima della posa, potresti chiederti: come fanno questi modelli a imparare a stimare la posa di diversi oggetti? È qui che entra in gioco l'idea della formazione personalizzata.
L'addestramento personalizzato significa insegnare a un modello a riconoscere specifici punti chiave utilizzando i tuoi dati. Poiché la creazione di un modello da zero richiede una grande quantità di immagini etichettate e molto tempo, molte persone optano per l'apprendimento per trasferimento. Si tratta di partire da un modello già addestrato su un ampio set di dati, come ad esempio il modello di stima della posa di YOLO11 , pre-addestrato sul set di dati COCO-Pose, per poi metterlo a punto con i propri dati per un compito o un caso d'uso specifico.
Supponiamo che tu stia lavorando con le pose dello yoga: puoi mettere a punto YOLO11 utilizzando immagini in cui ogni posa è etichettata con punti chiave specifici per quell'attività. Per fare ciò, avrai bisogno di un set di immagini annotate personalizzato da cui il modello possa imparare.
Durante l'addestramento, puoi regolare impostazioni come la dimensione del batch (il numero di immagini elaborate in una sola volta), il tasso di apprendimento (la velocità con cui il modello aggiorna il suo apprendimento) e le epoche (il numero di volte in cui il modello analizza il set di dati) per migliorare la precisione. In questo modo è molto più facile costruire modelli di stima della posa su misura per le tue esigenze specifiche.
Ora che abbiamo parlato di cos'è la stima della posa e di come funziona, diamo un'occhiata più da vicino ad alcuni casi d'uso reali.
La stima della postura sta gradualmente diventando uno strumento affidabile nel settore sanitario, in particolare nella fisioterapia. Utilizzando l'intelligenza artificiale e la computer vision, questi sistemi possono tracciare la postura e i movimenti in tempo reale e fornire un feedback simile a quello offerto da un fisioterapista.
Ad esempio, un paziente che si sta riprendendo da un intervento al ginocchio può utilizzare un sistema di stima della postura per assicurarsi di eseguire correttamente gli esercizi di riabilitazione. Il sistema può individuare eventuali movimenti errati e offrire suggerimenti per migliorarli, aiutando il paziente a rimanere in carreggiata e a evitare infortuni.
Oltre alla riabilitazione, la stima della postura si sta facendo strada anche nelle app per il fitness. Ad esempio, chi si allena a casa può usare l'app per controllare la propria forma durante gli esercizi. L'app può fornire un feedback in tempo reale, come ad esempio regolare l'angolo di uno squat o assicurarsi che la schiena sia dritta durante un deadlift. Questo aiuta gli utenti a migliorare la propria forma e a prevenire gli infortuni senza dover ricorrere a un allenatore.
La stima della posa ha cambiato il modo in cui il motion capture funziona nell'intrattenimento, rendendolo più semplice e accessibile. In passato, la cattura del movimento richiedeva di posizionare dei marcatori sul corpo di una persona e di seguirli con telecamere speciali, il che poteva essere complicato e costoso.
Ora, grazie ai progressi dell'AI e della computer vision, possiamo utilizzare normali telecamere e algoritmi per tracciare i movimenti del corpo senza bisogno di marcatori, rendendo il processo più efficiente e preciso, anche in tempo reale.
Un ottimo esempio è il Poser AR (Augmented Reality) di Disney. Questo divertente strumento ti permette di scattare una foto con il tuo telefono e di far copiare la tua posa a un personaggio digitale in realtà aumentata. Funziona analizzando la tua posa nella foto e abbinandola a un personaggio 3D, creando un selfie AR divertente e personalizzato.
Ecco alcuni dei principali vantaggi che la stima della posa può apportare a diversi settori:
Sebbene i vantaggi della stima della posa siano evidenti in diversi campi, ci sono anche alcune sfide da considerare. Ecco alcune limitazioni chiave da tenere a mente:
La stima della posa ha fatto molta strada dai suoi albori, evolvendosi da sistemi che utilizzavano marcatori a strumenti di grande impatto guidati da modelli di deep learning come YOLO11. Che si tratti di migliorare la fisioterapia, di alimentare esperienze interattive AR o di aiutare la ricerca sulla fauna selvatica, la stima della posa sta cambiando il modo in cui le macchine comprendono il movimento e la postura. Con l'avanzare della tecnologia, affrontare i suoi limiti sarà la chiave per sbloccare ancora più usi pratici e rendere le macchine più capaci di capire come ci muoviamo noi e gli altri esseri viventi.
Sei curioso di conoscere l'intelligenza artificiale? Esplora il nostro repository GitHub, entra in contatto con la nostra community e scopri le nostre opzioni di licenza per avviare il tuo progetto di computer vision. Per saperne di più su innovazioni come l'IA nella vendita al dettaglio e la computer vision nel settore della logistica, visita le nostre pagine dedicate alle soluzioni.
Inizia il tuo viaggio nel futuro dell'apprendimento automatico