Controllo verde
Link copiato negli appunti

Che cos'è la stima della posa e dove può essere utilizzata?

Scopri come funziona la stima della posa, le sue applicazioni reali e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.

Quando vedi una persona accasciata o che sta in piedi con le spalle indietro, è subito chiaro se ha una postura scorretta o sicura. Non c'è bisogno che qualcuno te lo spieghi. Questo perché, nel corso del tempo, abbiamo imparato naturalmente a interpretare il linguaggio del corpo. 

Grazie all'esperienza e all'osservazione, il nostro cervello è diventato molto bravo a riconoscere la postura di vari oggetti, compresi gli esseri umani. Grazie ai recenti progressi dell'intelligenza artificiale (AI) e della computer vision, un campo che permette alle macchine di interpretare le informazioni visive del mondo, anche le macchine stanno iniziando ad apprendere e a replicare questa abilità.

La stima della posa è un'attività di computer vision che aiuta le macchine a capire la posizione e l'orientamento di una persona o di un oggetto guardando immagini o video. Lo fa identificando i punti chiave del corpo, come le articolazioni e gli arti, per capire come una persona, o addirittura un oggetto, si sta muovendo. 

Questa tecnologia viene ampiamente utilizzata in campi come il fitness, la sanità e l'animazione. Negli ambienti di lavoro, ad esempio, può essere utilizzata per monitorare la postura dei dipendenti e supportare le iniziative di sicurezza e benessere. Modelli di visione artificiale come Ultralytics YOLO11 rendono possibile tutto ciò stimando le pose umane in tempo reale.

Figura 1. Un esempio di utilizzo di YOLO11 per monitorare la postura dei lavoratori.

In questo articolo daremo un'occhiata più da vicino alla stima della posa e al suo funzionamento, insieme a casi d'uso reali in cui fa la differenza. Iniziamo!

L'evoluzione della stima della posa

Le ricerche sulla stima della posa sono iniziate alla fine degli anni '60 e '70. Nel corso degli anni, gli approcci a questa attività di computer vision sono passati dalla matematica e dalla geometria di base a metodi più avanzati guidati dall'intelligenza artificiale.

Inizialmente, le tecniche dipendevano da angoli di ripresa fissi e punti di riferimento noti. In seguito, si sono evolute includendo modelli 3D e corrispondenza di caratteristiche. Oggi, modelli di deep learning come YOLO11 sono in grado di rilevare la posizione del corpo in tempo reale da immagini o video, rendendo la stima della posa più veloce e accurata che mai.

Con il miglioramento della tecnologia, i ricercatori hanno visto le potenziali applicazioni della possibilità di monitorare e tracciare le pose di vari oggetti, in particolare di esseri umani e animali. La stima della posa è particolarmente importante perché consente agli strumenti di intelligenza artificiale di comprendere e misurare la postura e il movimento in modi che prima non erano possibili. 

Ad esempio, permette ai computer di riconoscere i gesti per interagire a mani libere, analizza i movimenti degli atleti per migliorare le prestazioni, alimenta animazioni realistiche nei videogiochi e supporta persino l'assistenza sanitaria monitorando i progressi di guarigione dei pazienti.

In cosa si differenzia da altri compiti di computer vision?

La stima della posa è diversa da altre attività di computer vision come il rilevamento degli oggetti e la segmentazione delle istanze. Questi compiti si concentrano principalmente sull'identificazione e sulla localizzazione degli oggetti all'interno di un'immagine. 

Il rilevamento degli oggetti, ad esempio, disegna dei riquadri di delimitazione intorno a oggetti come persone, veicoli o animali per indicarne la presenza e la posizione. La segmentazione delle istanze fa un ulteriore passo avanti delineando la forma precisa di ogni oggetto a livello di pixel.

Tuttavia, entrambi questi metodi si preoccupano principalmente di sapere cosa sia l'oggetto e dove si trovi, senza fornire alcuna informazione su come sia posizionato l'oggetto o su cosa stia facendo. È qui che la stima della posa diventa fondamentale. 

Identificando i punti chiave del corpo, come i gomiti, le ginocchia o persino la coda, la stima della posa può interpretare la postura e il movimento. Ciò consente una comprensione più approfondita delle azioni, dei gesti e delle dinamiche del corpo, compreso il movimento nello spazio 3D.

Capire come funziona la stima della posa

I modelli di stima della posa seguono generalmente due approcci principali: bottom-up e top-down. Nell'approccio bottom-up, il modello rileva prima i singoli punti chiave, come gomiti, ginocchia o spalle, e poi li raggruppa per capire a quale persona o oggetto appartengono. Al contrario, l'approccio top-down inizia rilevando prima ogni oggetto (ad esempio una persona nell'immagine) e poi individua i punti chiave per quell'oggetto specifico.

Figura 2. Metodi di stima della posa bottom-up e top-down.

Alcuni modelli più recenti, come YOLO11, combinano i vantaggi di entrambi gli approcci. Mantengono l'efficienza del metodo bottom-up saltando la fase di raggruppamento manuale, ma sfruttano anche la precisione dei sistemi top-down rilevando le persone e stimando la loro posa in una sola volta, in un unico processo semplificato.

Formazione personalizzata YOLO11 per la stima della posa

Mentre ti spieghiamo come funzionano i modelli di stima della posa, potresti chiederti: come fanno questi modelli a imparare a stimare la posa di diversi oggetti? È qui che entra in gioco l'idea della formazione personalizzata.

L'addestramento personalizzato significa insegnare a un modello a riconoscere specifici punti chiave utilizzando i tuoi dati. Poiché la creazione di un modello da zero richiede una grande quantità di immagini etichettate e molto tempo, molte persone optano per l'apprendimento per trasferimento. Si tratta di partire da un modello già addestrato su un ampio set di dati, come ad esempio il modello di stima della posa di YOLO11 , pre-addestrato sul set di dati COCO-Pose, per poi metterlo a punto con i propri dati per un compito o un caso d'uso specifico.

Supponiamo che tu stia lavorando con le pose dello yoga: puoi mettere a punto YOLO11 utilizzando immagini in cui ogni posa è etichettata con punti chiave specifici per quell'attività. Per fare ciò, avrai bisogno di un set di immagini annotate personalizzato da cui il modello possa imparare. 

Durante l'addestramento, puoi regolare impostazioni come la dimensione del batch (il numero di immagini elaborate in una sola volta), il tasso di apprendimento (la velocità con cui il modello aggiorna il suo apprendimento) e le epoche (il numero di volte in cui il modello analizza il set di dati) per migliorare la precisione. In questo modo è molto più facile costruire modelli di stima della posa su misura per le tue esigenze specifiche.

Applicazioni reali della stima della posa

Ora che abbiamo parlato di cos'è la stima della posa e di come funziona, diamo un'occhiata più da vicino ad alcuni casi d'uso reali.

Utilizzo della stima della posa per la fisioterapia 

La stima della postura sta gradualmente diventando uno strumento affidabile nel settore sanitario, in particolare nella fisioterapia. Utilizzando l'intelligenza artificiale e la computer vision, questi sistemi possono tracciare la postura e i movimenti in tempo reale e fornire un feedback simile a quello offerto da un fisioterapista. 

Ad esempio, un paziente che si sta riprendendo da un intervento al ginocchio può utilizzare un sistema di stima della postura per assicurarsi di eseguire correttamente gli esercizi di riabilitazione. Il sistema può individuare eventuali movimenti errati e offrire suggerimenti per migliorarli, aiutando il paziente a rimanere in carreggiata e a evitare infortuni.

Figura 3. Un esempio di utilizzo di YOLO11 per la fisioterapia.

Oltre alla riabilitazione, la stima della postura si sta facendo strada anche nelle app per il fitness. Ad esempio, chi si allena a casa può usare l'app per controllare la propria forma durante gli esercizi. L'app può fornire un feedback in tempo reale, come ad esempio regolare l'angolo di uno squat o assicurarsi che la schiena sia dritta durante un deadlift. Questo aiuta gli utenti a migliorare la propria forma e a prevenire gli infortuni senza dover ricorrere a un allenatore.

Acquisizione del movimento per l'intrattenimento grazie alla stima della posa

La stima della posa ha cambiato il modo in cui il motion capture funziona nell'intrattenimento, rendendolo più semplice e accessibile. In passato, la cattura del movimento richiedeva di posizionare dei marcatori sul corpo di una persona e di seguirli con telecamere speciali, il che poteva essere complicato e costoso. 

Ora, grazie ai progressi dell'AI e della computer vision, possiamo utilizzare normali telecamere e algoritmi per tracciare i movimenti del corpo senza bisogno di marcatori, rendendo il processo più efficiente e preciso, anche in tempo reale.

Un ottimo esempio è il Poser AR (Augmented Reality) di Disney. Questo divertente strumento ti permette di scattare una foto con il tuo telefono e di far copiare la tua posa a un personaggio digitale in realtà aumentata. Funziona analizzando la tua posa nella foto e abbinandola a un personaggio 3D, creando un selfie AR divertente e personalizzato. 

Figura 4. Un personaggio AR imita la posa di una persona utilizzando la stima della posa.

La ricerca sul comportamento sociale è guidata dalla stima della posa degli animali

Lo studio del comportamento animale aiuta gli scienziati a capire come gli animali comunicano, trovano compagni, si prendono cura dei loro piccoli e vivono in gruppo. Queste conoscenze sono fondamentali per proteggere la fauna selvatica e per comprendere meglio il mondo naturale.

La stima della posa semplifica questo processo tracciando i movimenti e la postura degli animali utilizzando immagini e video, senza attaccare sensori o etichette agli animali. Questi sistemi possono monitorare automaticamente le loro pose, fornendo informazioni su comportamenti come la toelettatura, il gioco o la lotta. 

Un esempio interessante è rappresentato dagli scienziati che utilizzano la stima della posa per studiare il comportamento delle scimmie. Infatti, i ricercatori hanno compilato set di dati come OpenApePose, che contiene oltre 71.000 immagini etichettate di sei specie di scimmie. 

Figura 5. Stima della posa della scimmia.

Pro e contro della stima della posa

Ecco alcuni dei principali vantaggi che la stima della posa può apportare a diversi settori:

  • Scalabilità: I sistemi di stima della posa possono essere implementati su un'ampia gamma di dispositivi, dagli smartphone ai sistemi di telecamere avanzati, rendendoli altamente scalabili e accessibili per diversi casi d'uso e ambienti.

  • Efficiente dal punto di vista dei costi: Poiché la stima della posa si basa su normali telecamere e non richiede sensori o tag costosi, può essere una soluzione più economica per tracciare i movimenti sia nella ricerca che nelle applicazioni commerciali.

  • Monitoraggio continuo: I sistemi di stima della posa possono fornire un tracciamento continuo e in tempo reale, consentendo di monitorare i cambiamenti nel tempo, sia che si tratti dei progressi dei pazienti nella riabilitazione, sia che si tratti di seguire il comportamento degli animali in natura.

Sebbene i vantaggi della stima della posa siano evidenti in diversi campi, ci sono anche alcune sfide da considerare. Ecco alcune limitazioni chiave da tenere a mente:

  • Generalizzazione limitata: Molti modelli addestrati su set di dati umani non si generalizzano bene agli animali o a strutture corporee non comuni senza un nuovo addestramento su set di dati specifici.

  • Limitazioni ambientali: Le prestazioni possono diminuire in condizioni di scarsa illuminazione, sfocatura rapida del movimento o sfondi ingombrati.
  • Alta sensibilità all'occlusione: La precisione può diminuire quando le parti del corpo sono bloccate o fuori dall'inquadratura, soprattutto nelle scene affollate o nel tracciamento di più persone.

Punti di forza

La stima della posa ha fatto molta strada dai suoi albori, evolvendosi da sistemi che utilizzavano marcatori a strumenti di grande impatto guidati da modelli di deep learning come YOLO11. Che si tratti di migliorare la fisioterapia, di alimentare esperienze interattive AR o di aiutare la ricerca sulla fauna selvatica, la stima della posa sta cambiando il modo in cui le macchine comprendono il movimento e la postura. Con l'avanzare della tecnologia, affrontare i suoi limiti sarà la chiave per sbloccare ancora più usi pratici e rendere le macchine più capaci di capire come ci muoviamo noi e gli altri esseri viventi.

Sei curioso di conoscere l'intelligenza artificiale? Esplora il nostro repository GitHub, entra in contatto con la nostra community e scopri le nostre opzioni di licenza per avviare il tuo progetto di computer vision. Per saperne di più su innovazioni come l'IA nella vendita al dettaglio e la computer vision nel settore della logistica, visita le nostre pagine dedicate alle soluzioni.

Logo di LinkedInLogo di TwitterLogo di FacebookSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico