Che cos'è la stima della posa e dove può essere utilizzata?

Abirami Vina

5 minuti di lettura

7 maggio 2025

Scoprite come funziona la stima della posa, le sue applicazioni reali e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.

Quando si vede una persona accasciata o in piedi con le spalle indietro, si capisce subito se ha una postura scorretta o sicura. Non c'è bisogno di spiegarlo. Questo perché, nel tempo, abbiamo imparato naturalmente a interpretare il linguaggio del corpo. 

Grazie all'esperienza e all'osservazione, il nostro cervello è diventato molto bravo a riconoscere la postura di vari oggetti, compresi gli esseri umani. Grazie ai recenti progressi dell'intelligenza artificiale (AI) e della computer vision, un campo che consente alle macchine di interpretare le informazioni visive del mondo, anche le macchine stanno iniziando ad apprendere e replicare questa capacità.

La stima della posa è un'attività di computer vision che aiuta le macchine a capire la posizione e l'orientamento di una persona o di un oggetto guardando immagini o video. Lo fa identificando i punti chiave del corpo, come le articolazioni e gli arti, per capire come una persona, o addirittura un oggetto, si stia muovendo. 

Questa tecnologia viene ampiamente utilizzata in campi come il fitness, la sanità e l'animazione. Negli ambienti di lavoro, ad esempio, può essere utilizzata per monitorare la postura dei dipendenti e supportare iniziative di sicurezza e benessere. Modelli di visione computerizzata come Ultralytics YOLO11 rendono possibile tutto ciò, stimando le pose umane in tempo reale.

__wf_reserved_inherit
Figura 1. Un esempio di utilizzo di YOLO11 per monitorare la postura dei lavoratori.

In questo articolo daremo un'occhiata più da vicino alla stima della posa e al suo funzionamento, insieme a casi d'uso reali in cui fa la differenza. Iniziamo!

L'evoluzione della stima della posa

Le ricerche sulla stima della posa sono iniziate alla fine degli anni '60 e '70. Nel corso degli anni, gli approcci a questa attività di computer vision sono passati dalla matematica e dalla geometria di base a metodi più avanzati guidati dall'intelligenza artificiale.

Inizialmente, le tecniche si basavano su angoli di ripresa fissi e punti di riferimento noti. In seguito, si sono evolute includendo modelli 3D e corrispondenza di caratteristiche. Oggi, modelli di deep learning come YOLO11 sono in grado di rilevare le posizioni del corpo in tempo reale da immagini o video, rendendo la stima della posa più veloce e accurata che mai.

Con il miglioramento della tecnologia, i ricercatori hanno visto le potenziali applicazioni della possibilità di monitorare e tracciare le pose di vari oggetti, in particolare di esseri umani e animali. La stima della posa è particolarmente importante perché consente agli strumenti di intelligenza artificiale di comprendere e misurare la postura e il movimento in modi che prima non erano possibili. 

Ad esempio, permette ai computer di riconoscere i gesti per interagire a mani libere, analizza i movimenti degli atleti per migliorare le prestazioni, alimenta animazioni realistiche nei videogiochi e supporta persino l'assistenza sanitaria, monitorando i progressi di guarigione dei pazienti.

In cosa si differenzia da altri compiti di computer vision?

La stima della posa è diversa da altre attività di computer vision come il rilevamento degli oggetti e la segmentazione delle istanze. Questi compiti si concentrano principalmente sull'identificazione e sulla localizzazione degli oggetti all'interno di un'immagine. 

Il rilevamento degli oggetti, ad esempio, disegna dei riquadri di delimitazione intorno a oggetti come persone, veicoli o animali per indicarne la presenza e la posizione. La segmentazione delle istanze fa un ulteriore passo avanti, delineando la forma precisa di ogni oggetto a livello di pixel.

Tuttavia, entrambi questi metodi si preoccupano principalmente di sapere cosa sia l'oggetto e dove si trovi, senza fornire alcuna informazione su come sia posizionato l'oggetto o su cosa stia facendo. È qui che la stima della posa diventa fondamentale. 

Identificando i punti chiave del corpo, come i gomiti, le ginocchia o persino la coda, la stima della posa può interpretare la postura e il movimento. Ciò consente una comprensione più approfondita di azioni, gesti e dinamiche del corpo, compreso il movimento nello spazio 3D.

Capire come funziona la stima della posa

I modelli di stima della posa seguono generalmente due approcci principali: bottom-up e top-down. Nell'approccio bottom-up, il modello rileva prima i singoli punti chiave, come gomiti, ginocchia o spalle, e poi li raggruppa per capire a quale persona o oggetto appartengono. L'approccio top-down, invece, inizia rilevando prima ogni oggetto (come una persona nell'immagine) e poi individua i punti chiave per quell'oggetto specifico.

__wf_reserved_inherit
Figura 2. Metodi di stima della posa bottom-up e top-down.

Alcuni modelli più recenti, come YOLO11, combinano i vantaggi di entrambi gli approcci. Mantengono l'efficienza del metodo bottom-up saltando la fase di raggruppamento manuale, ma sfruttano anche la precisione dei sistemi top-down rilevando le persone e stimando la loro posa in una sola volta, in un unico processo semplificato.

Formazione personalizzata YOLO11 per la stima della posa

Mentre spieghiamo come funzionano i modelli di stima della posa, ci si potrebbe chiedere: come fanno questi modelli a imparare a stimare la posa di oggetti diversi? È qui che entra in gioco l'idea dell'addestramento personalizzato.

L'addestramento personalizzato significa insegnare a un modello a riconoscere specifici punti chiave utilizzando i propri dati. Poiché la costruzione di un modello da zero richiede una grande quantità di immagini etichettate e un notevole dispendio di tempo, molti optano per l'apprendimento per trasferimento. Si tratta di partire da un modello già addestrato su un ampio set di dati, come il modello di stima della posa di YOLO11, preaddestrato sul set di dati COCO-Pose, per poi metterlo a punto con i propri dati per un compito o un caso d'uso specifico.

Supponiamo di lavorare con le pose di yoga: è possibile perfezionare YOLO11 utilizzando immagini in cui ogni posa è etichettata con punti chiave specifici per quell'attività. Per fare questo, è necessario un set di dati personalizzato di immagini annotate da cui il modello possa imparare. 

Durante l'addestramento, è possibile regolare impostazioni come la dimensione del batch (il numero di immagini elaborate in una sola volta), il tasso di apprendimento (la velocità con cui il modello aggiorna il suo apprendimento) e le epoche (il numero di cicli del modello attraverso il set di dati) per migliorare la precisione. In questo modo è molto più facile costruire modelli di stima della posa su misura per le proprie esigenze specifiche.

Applicazioni reali della stima della posa

Ora che abbiamo discusso cos'è e come funziona la stima della posa, diamo un'occhiata più da vicino ad alcuni casi d'uso reali.

Utilizzo della stima della posa per la fisioterapia 

La stima della postura sta gradualmente diventando uno strumento affidabile nel settore sanitario, in particolare nella fisioterapia. Utilizzando l'intelligenza artificiale e la computer vision, questi sistemi possono tracciare la postura e i movimenti in tempo reale e fornire un feedback simile a quello offerto da un fisioterapista. 

Ad esempio, un paziente che si sta riprendendo da un intervento al ginocchio può utilizzare un sistema di stima della postura per assicurarsi di eseguire correttamente gli esercizi di riabilitazione. Il sistema è in grado di individuare eventuali movimenti errati e di offrire suggerimenti per migliorarli, aiutando il paziente a rimanere in carreggiata e a evitare lesioni.

__wf_reserved_inherit
Figura 3. Un esempio di utilizzo di YOLO11 per la fisioterapia.

Oltre alla riabilitazione, la stima della postura si sta facendo strada anche nelle app per il fitness. Ad esempio, chi si allena a casa può usare l'app per controllare la propria forma durante gli esercizi. L'applicazione può fornire un feedback in tempo reale, come ad esempio regolare l'angolo di uno squat o assicurarsi che la schiena sia dritta durante un deadlift. Questo aiuta gli utenti a migliorare la propria forma e a prevenire gli infortuni senza dover ricorrere a un allenatore.

Acquisizione del movimento per l'intrattenimento grazie alla stima della posa

La stima della posa ha cambiato il modo in cui il motion capture funziona nell'intrattenimento, rendendolo più semplice e accessibile. In passato, la cattura del movimento richiedeva di posizionare dei marcatori sul corpo di una persona e di seguirli con telecamere speciali, il che poteva essere complicato e costoso. 

Oggi, grazie ai progressi dell'intelligenza artificiale e della computer vision, possiamo utilizzare normali telecamere e algoritmi per tracciare i movimenti del corpo senza bisogno di marcatori, rendendo il processo più efficiente e preciso, anche in tempo reale.

Un ottimo esempio è il Poser AR (Augmented Reality) di Disney. Questo divertente strumento consente di scattare una foto con il telefono e di far sì che un personaggio digitale copi la vostra posa in realtà aumentata. Funziona analizzando la vostra posa nella foto e abbinandola a un personaggio 3D, creando un selfie AR divertente e personalizzato. 

__wf_reserved_inherit
Figura 4. Un personaggio AR imita la posa di una persona utilizzando la stima della posa.

La ricerca sul comportamento sociale guidata dalla stima della posa degli animali

Lo studio del comportamento animale aiuta gli scienziati a capire come gli animali comunicano, si accoppiano, si prendono cura dei loro piccoli e vivono in gruppo. Queste conoscenze sono fondamentali per proteggere la fauna selvatica e per comprendere meglio il mondo naturale.

La stima della posa semplifica questo processo tracciando i movimenti e la postura degli animali utilizzando immagini e video, senza attaccare sensori o etichette agli animali. Questi sistemi possono monitorare automaticamente le loro pose, fornendo informazioni su comportamenti come la toelettatura, il gioco o la lotta. 

Un esempio interessante è rappresentato dagli scienziati che utilizzano la stima della posa per studiare il comportamento delle scimmie. Infatti, i ricercatori hanno compilato set di dati come OpenApePose, che contiene oltre 71.000 immagini etichettate di sei specie di scimmie. 

__wf_reserved_inherit
Figura 5. Stima della posa della scimmia.

Pro e contro della stima della posa

Ecco alcuni dei principali vantaggi che la stima della posa può apportare a vari settori:

  • Scalabilità: I sistemi di stima della posa possono essere implementati su un'ampia gamma di dispositivi, dagli smartphone alle configurazioni avanzate di telecamere, rendendoli altamente scalabili e accessibili per diversi casi d'uso e ambienti.

  • Efficiente dal punto di vista dei costi: Poiché la stima della posa si basa su normali telecamere e non richiede sensori o tag costosi, può essere una soluzione più economica per tracciare i movimenti sia nella ricerca che nelle applicazioni commerciali.

  • Monitoraggio continuo: I sistemi di stima della posa possono fornire un tracciamento continuo e in tempo reale, consentendo di monitorare i cambiamenti nel tempo, sia che si tratti dei progressi dei pazienti nella riabilitazione o del monitoraggio del comportamento degli animali in natura.

Sebbene i vantaggi della stima della posa siano evidenti in diversi campi, ci sono anche alcune sfide da considerare. Ecco alcune limitazioni chiave da tenere a mente:

  • Generalizzazione limitata: Molti modelli addestrati su set di dati umani non si generalizzano bene agli animali o a strutture corporee non comuni senza un nuovo addestramento su set di dati specifici.

  • Limitazioni ambientali: Le prestazioni possono diminuire in condizioni di scarsa illuminazione, sfocatura rapida del movimento o sfondi ingombrati.
  • Elevata sensibilità all'occlusione: La precisione può diminuire quando le parti del corpo sono bloccate o fuori dall'inquadratura, soprattutto nelle scene affollate o nel tracciamento di più persone.

Punti di forza

La stima della posa ha fatto molta strada dai suoi albori, evolvendo da sistemi che utilizzavano marcatori a strumenti di grande impatto guidati da modelli di deep learning come YOLO11. Che si tratti di migliorare la fisioterapia, di alimentare esperienze interattive di AR o di aiutare la ricerca sulla fauna selvatica, la stima della posa sta cambiando il modo in cui le macchine comprendono il movimento e la postura. Con l'avanzare della tecnologia, affrontare i suoi limiti sarà fondamentale per sbloccare usi ancora più pratici e rendere le macchine più capaci di capire come ci muoviamo noi e gli altri esseri viventi.

Siete curiosi di conoscere l'intelligenza artificiale? Esplorate il nostro repository GitHub, entrate in contatto con la nostra comunità e controllate le nostre opzioni di licenza per avviare il vostro progetto di computer vision. Per saperne di più su innovazioni come l'IA nella vendita al dettaglio e la computer vision nel settore della logistica, consultate le nostre pagine dedicate alle soluzioni.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti