Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Cos'è la stima della posa e dove può essere utilizzata?

Abirami Vina

5 minuti di lettura

7 mag 2025

Scopri come funziona la stima della posa, le sue applicazioni nel mondo reale e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.

Quando si vede qualcuno curvo o in piedi con le spalle indietro, è immediatamente chiaro se ha una postura scorretta o sicura. Nessuno ha bisogno di spiegarlo. Questo perché, nel tempo, abbiamo imparato naturalmente a interpretare il linguaggio del corpo. 

Attraverso l'esperienza e l'osservazione, i nostri cervelli sono diventati molto bravi a riconoscere la postura di vari oggetti, inclusi gli esseri umani. Grazie ai recenti progressi nell'intelligenza artificiale (IA) e nella computer vision, un campo che consente alle macchine di interpretare le informazioni visive dal mondo, le macchine stanno ora iniziando a imparare e replicare anche questa capacità.

La stima della posa è un compito di computer vision che aiuta le macchine a capire la posizione e l'orientamento di una persona o di un oggetto analizzando immagini o video. Lo fa identificando i punti chiave sul corpo, come articolazioni e arti, per capire come si muove qualcuno, o anche qualcosa. 

Questa tecnologia è ampiamente utilizzata in settori come il fitness, la sanità e l'animazione. Negli ambienti di lavoro, ad esempio, può essere utilizzata per monitorare la postura dei dipendenti e supportare iniziative di sicurezza e benessere. I modelli di computer vision come Ultralytics YOLO11 lo rendono possibile stimando le pose umane in tempo reale.

Fig 1. Un esempio di utilizzo di YOLO11 per monitorare la postura dei lavoratori.

In questo articolo, esamineremo più da vicino la stima della posa e come funziona, insieme a casi d'uso reali in cui sta facendo la differenza. Iniziamo!

L'evoluzione della stima della posa

La ricerca sulla stima della posa è iniziata alla fine degli anni '60 e '70. Nel corso degli anni, gli approcci a questo compito di computer vision si sono spostati dalla matematica e dalla geometria di base a metodi più avanzati guidati dall'intelligenza artificiale.

Inizialmente, le tecniche dipendevano da angolazioni fisse della telecamera e da punti di riferimento noti. Successivamente, si sono evolute per includere modelli 3D e corrispondenza delle caratteristiche. Oggi, i modelli di deep learning come YOLO11 possono rilevare le posizioni del corpo in tempo reale da immagini o video, rendendo la stima della posa più veloce e precisa che mai.

Con il miglioramento della tecnologia, i ricercatori hanno visto le potenziali applicazioni della capacità di monitorare e tracciare le pose di vari oggetti, in particolare esseri umani e animali. La stima della posa è particolarmente importante perché consente agli strumenti di intelligenza artificiale di comprendere e misurare la postura e il movimento in modi che prima non erano possibili. 

Ad esempio, consente ai computer di riconoscere i gesti per l'interazione a mani libere, analizza i movimenti degli atleti per migliorare le prestazioni, alimenta animazioni realistiche nei videogiochi e supporta persino l'assistenza sanitaria monitorando i progressi di recupero dei pazienti.

In cosa si differenzia da altre attività di computer vision?

La stima della posa è diversa da altre attività di computer vision come il rilevamento di oggetti e la segmentazione di istanze. Queste attività si concentrano principalmente sull'identificazione e la localizzazione di oggetti all'interno di un'immagine. 

Il rilevamento oggetti, ad esempio, disegna dei bounding box attorno a elementi come persone, veicoli o animali per indicarne la presenza e la posizione. La segmentazione di istanza fa un ulteriore passo avanti delineando la forma precisa di ciascun oggetto a livello di pixel.

Tuttavia, entrambi questi metodi si concentrano principalmente su cosa sia l'oggetto e dove si trovi, ma non forniscono alcuna informazione su come l'oggetto è posizionato o su cosa potrebbe fare. È qui che la stima della posa diventa cruciale. 

Identificando i punti chiave del corpo, come gomiti, ginocchia o anche una coda, la stima della posa può interpretare la postura e il movimento. Ciò consente una comprensione più profonda delle azioni, dei gesti e delle dinamiche del corpo, compreso il movimento nello spazio 3D.

Comprendere come funziona la stima della posa

I modelli di stima della posa generalmente seguono due approcci principali: bottom-up e top-down. Nell'approccio bottom-up, il modello rileva prima i singoli punti chiave, come gomiti, ginocchia o spalle, e poi li raggruppa per capire a quale persona o oggetto appartengono. Al contrario, l'approccio top-down inizia rilevando prima ogni oggetto (come una persona nell'immagine) e poi individua i punti chiave per quello specifico oggetto.

Fig 2. Metodi di stima della posa bottom-up e top-down.

Alcuni modelli più recenti, come YOLO11, combinano i vantaggi di entrambi gli approcci. Mantiene l'efficienza del metodo bottom-up saltando la fase di raggruppamento manuale, sfruttando al contempo la precisione dei sistemi top-down rilevando le persone e stimando le loro pose contemporaneamente, in un unico processo semplificato.

Training personalizzato di YOLO11 per la stima della posa

Mentre esaminiamo il funzionamento dei modelli di stima della posa, potreste chiedervi: come fanno questi modelli a imparare a stimare la posa di diversi oggetti? È qui che entra in gioco l'idea dell'addestramento personalizzato.

Training personalizzato significa insegnare a un modello a riconoscere specifici punti chiave utilizzando i propri dati. Poiché la creazione di un modello da zero richiede una grande quantità di immagini etichettate e un tempo significativo, molte persone optano per il transfer learning. Questo implica iniziare con un modello che è già stato addestrato su un ampio dataset, come il modello di stima della posa YOLO11, che è pre-addestrato sul dataset COCO-Pose, e poi metterlo a punto con i propri dati per uno specifico compito o caso d'uso.

Supponiamo che tu stia lavorando con posizioni yoga: puoi ottimizzare YOLO11 utilizzando immagini in cui ogni posizione è etichettata con punti chiave specifici per quell'attività. Per fare ciò, avrai bisogno di un set di dati personalizzato di immagini annotate da cui il modello possa apprendere. 

Durante l'addestramento, è possibile regolare impostazioni come la dimensione del batch (il numero di immagini elaborate contemporaneamente), il tasso di apprendimento (la velocità con cui il modello aggiorna il suo apprendimento) e le epoche (il numero di volte in cui il modello scorre il set di dati) per migliorare la precisione. Questo rende molto più facile costruire modelli di stima della posa su misura per le vostre esigenze specifiche.

Applicazioni nel mondo reale della stima della posa

Ora che abbiamo discusso di cosa sia la stima della posa e di come funziona, diamo un'occhiata più da vicino ad alcuni dei suoi casi d'uso nel mondo reale.

Utilizzo della stima della posa per la fisioterapia 

La stima della posa sta gradualmente diventando uno strumento affidabile nel settore sanitario, soprattutto nella fisioterapia. Utilizzando l'intelligenza artificiale e la computer vision, questi sistemi possono tracciare la postura e i movimenti in tempo reale e fornire feedback, in modo simile a quanto offrirebbe un fisioterapista. 

Ad esempio, un paziente in convalescenza da un intervento chirurgico al ginocchio può utilizzare un sistema di stima della posa per assicurarsi di eseguire correttamente gli esercizi di riabilitazione. Il sistema può individuare eventuali movimenti errati e offrire suggerimenti per il miglioramento, aiutando il paziente a rimanere in carreggiata ed evitare infortuni.

Fig. 3. Un esempio di utilizzo di YOLO11 per la fisioterapia.

Oltre alla riabilitazione, la stima della posa si sta facendo strada anche nelle app di fitness. Ad esempio, chi si allena a casa può utilizzare l'app per controllare la propria forma fisica durante gli esercizi. L'app può fornire un feedback in tempo reale, come la regolazione dell'angolazione di uno squat o l'assicurarsi che la schiena sia dritta durante un deadlift. Questo aiuta gli utenti a migliorare la loro forma fisica e a prevenire infortuni senza bisogno di un allenatore.

Motion capture per l'intrattenimento abilitato dalla stima della posa

La stima della posa ha cambiato il modo in cui funziona la motion capture nell'intrattenimento, rendendola più semplice e accessibile. In passato, la motion capture richiedeva il posizionamento di marcatori sul corpo di una persona e il loro tracciamento con telecamere speciali, il che poteva essere complicato e costoso. 

Ora, con i progressi dell'IA e della computer vision, possiamo utilizzare normali telecamere e algoritmi per tracciare i movimenti del corpo senza bisogno di marcatori, rendendo il processo più efficiente e accurato, anche in tempo reale.

Un ottimo esempio di questo è AR (Realtà Aumentata) Poser di Disney. Questo divertente strumento ti consente di scattare una foto con il tuo telefono e far copiare la tua posa a un personaggio digitale in realtà aumentata. Funziona analizzando la tua posa nella foto e abbinandola a un personaggio 3D, creando un selfie AR divertente e personalizzato. 

Fig. 4. Un personaggio AR imita la posa di una persona utilizzando la stima della posa.

Ricerca sul comportamento sociale guidata dalla stima della posa degli animali

Studiare il comportamento degli animali aiuta gli scienziati a capire come gli animali comunicano, trovano un partner, si prendono cura dei loro piccoli e vivono in gruppo. Questa conoscenza è fondamentale per proteggere la fauna selvatica e acquisire una comprensione più profonda del mondo naturale.

La stima della posa semplifica questo processo tracciando i movimenti degli animali e la postura utilizzando immagini e video, senza applicare sensori o etichette agli animali. Questi sistemi possono monitorare automaticamente le loro pose, fornendo informazioni su comportamenti come la pulizia, il gioco o il combattimento. 

Un esempio interessante è rappresentato dagli scienziati che utilizzano la stima della posa per studiare il comportamento delle scimmie. Infatti, i ricercatori hanno compilato set di dati come OpenApePose, che contiene oltre 71.000 immagini etichettate di sei specie di scimmie. 

Fig 5. Stima della posa di una scimmia.

Pro e contro della stima della posa

Ecco alcuni dei principali vantaggi che la stima della posa può apportare a vari settori:

  • Scalabilità: I sistemi di stima della posa possono essere implementati su un'ampia gamma di dispositivi, dagli smartphone alle configurazioni di telecamere avanzate, rendendoli altamente scalabili e accessibili per diversi casi d'uso e ambienti.

  • Conveniente: Poiché la stima della posa si basa su telecamere standard e non richiede sensori o tag costosi, può essere una soluzione più conveniente per tracciare il movimento sia nella ricerca che nelle applicazioni commerciali.

  • Monitoraggio continuo: I sistemi di stima della posa possono fornire un tracciamento continuo e in tempo reale, consentendo il monitoraggio dei cambiamenti nel tempo, sia per i progressi del paziente nella riabilitazione, sia per il tracciamento del comportamento degli animali in natura.

Sebbene i vantaggi della stima della posa siano chiari in vari campi, ci sono anche alcune sfide da considerare. Ecco alcune limitazioni chiave da tenere a mente:

  • Generalizzazione limitata: Molti modelli addestrati su set di dati umani non si generalizzano bene ad animali o strutture corporee non comuni senza un nuovo addestramento su set di dati specifici.

  • Limitazioni ambientali: Le prestazioni possono peggiorare in condizioni di scarsa illuminazione, motion blur rapido o sfondi disordinati.
  • Elevata sensibilità all'occlusione: La precisione può diminuire quando parti del corpo sono bloccate o fuori dall'inquadratura, specialmente in scene affollate o nel tracciamento di più persone.

Punti chiave

La stima della posa ha fatto molta strada dai suoi primi giorni, evolvendosi da sistemi che utilizzavano marcatori a strumenti di grande impatto guidati da modelli di deep learning come YOLO11. Che si tratti di migliorare la fisioterapia, potenziare le esperienze AR interattive o aiutare nella ricerca sulla fauna selvatica, la stima della posa sta cambiando il modo in cui le macchine comprendono il movimento e la postura. Man mano che la tecnologia continua ad avanzare, affrontare i suoi limiti sarà fondamentale per sbloccare usi ancora più pratici e rendere le macchine più brave a capire come ci muoviamo noi e altri esseri viventi.

Sei curioso di AI? Esplora il nostro repository GitHub, entra in contatto con la nostra community e dai un'occhiata alle nostre opzioni di licenza per dare il via al tuo progetto di computer vision. Scopri di più sulle innovazioni come l'AI nel retail e la computer vision nella logistica sulle nostre pagine delle soluzioni.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti