Scopri come funziona la stima della posa, le sue applicazioni nel mondo reale e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.
Scopri come funziona la stima della posa, le sue applicazioni nel mondo reale e come modelli come Ultralytics YOLO11 consentono alle macchine di interpretare il movimento e la postura del corpo.
Quando si vede qualcuno curvo o in piedi con le spalle indietro, è immediatamente chiaro se ha una postura scorretta o sicura. Nessuno ha bisogno di spiegarlo. Questo perché, nel tempo, abbiamo imparato naturalmente a interpretare il linguaggio del corpo.
Attraverso l'esperienza e l'osservazione, i nostri cervelli sono diventati molto bravi a riconoscere la postura di vari oggetti, inclusi gli esseri umani. Grazie ai recenti progressi nell'intelligenza artificiale (IA) e nella computer vision, un campo che consente alle macchine di interpretare le informazioni visive dal mondo, le macchine stanno ora iniziando a imparare e replicare anche questa capacità.
La stima della posa è un compito di computer vision che aiuta le macchine a capire la posizione e l'orientamento di una persona o di un oggetto analizzando immagini o video. Lo fa identificando i punti chiave sul corpo, come articolazioni e arti, per capire come si muove qualcuno, o anche qualcosa.
Questa tecnologia è ampiamente utilizzata in settori come il fitness, la sanità e l'animazione. Negli ambienti di lavoro, ad esempio, può essere utilizzata per monitorare la postura dei dipendenti e supportare iniziative di sicurezza e benessere. I modelli di computer vision come Ultralytics YOLO11 lo rendono possibile stimando le pose umane in tempo reale.

In questo articolo, esamineremo più da vicino la stima della posa e come funziona, insieme a casi d'uso reali in cui sta facendo la differenza. Iniziamo!
La ricerca sulla stima della posa è iniziata alla fine degli anni '60 e '70. Nel corso degli anni, gli approcci a questo compito di computer vision si sono spostati dalla matematica e dalla geometria di base a metodi più avanzati guidati dall'intelligenza artificiale.
Inizialmente, le tecniche dipendevano da angolazioni fisse della telecamera e da punti di riferimento noti. Successivamente, si sono evolute per includere modelli 3D e corrispondenza delle caratteristiche. Oggi, i modelli di deep learning come YOLO11 possono rilevare le posizioni del corpo in tempo reale da immagini o video, rendendo la stima della posa più veloce e precisa che mai.
Con il miglioramento della tecnologia, i ricercatori hanno visto le potenziali applicazioni della capacità di monitorare e tracciare le pose di vari oggetti, in particolare esseri umani e animali. La stima della posa è particolarmente importante perché consente agli strumenti di intelligenza artificiale di comprendere e misurare la postura e il movimento in modi che prima non erano possibili.
Ad esempio, consente ai computer di riconoscere i gesti per l'interazione a mani libere, analizza i movimenti degli atleti per migliorare le prestazioni, alimenta animazioni realistiche nei videogiochi e supporta persino l'assistenza sanitaria monitorando i progressi di recupero dei pazienti.
La stima della posa è diversa da altre attività di computer vision come il rilevamento di oggetti e la segmentazione di istanze. Queste attività si concentrano principalmente sull'identificazione e la localizzazione di oggetti all'interno di un'immagine.
Il rilevamento oggetti, ad esempio, disegna dei bounding box attorno a elementi come persone, veicoli o animali per indicarne la presenza e la posizione. La segmentazione di istanza fa un ulteriore passo avanti delineando la forma precisa di ciascun oggetto a livello di pixel.
Tuttavia, entrambi questi metodi si concentrano principalmente su cosa sia l'oggetto e dove si trovi, ma non forniscono alcuna informazione su come l'oggetto è posizionato o su cosa potrebbe fare. È qui che la stima della posa diventa cruciale.
Identificando i punti chiave del corpo, come gomiti, ginocchia o anche una coda, la stima della posa può interpretare la postura e il movimento. Ciò consente una comprensione più profonda delle azioni, dei gesti e delle dinamiche del corpo, compreso il movimento nello spazio 3D.
I modelli di stima della posa generalmente seguono due approcci principali: bottom-up e top-down. Nell'approccio bottom-up, il modello rileva prima i singoli punti chiave, come gomiti, ginocchia o spalle, e poi li raggruppa per capire a quale persona o oggetto appartengono. Al contrario, l'approccio top-down inizia rilevando prima ogni oggetto (come una persona nell'immagine) e poi individua i punti chiave per quello specifico oggetto.

Alcuni modelli più recenti, come YOLO11, combinano i vantaggi di entrambi gli approcci. Mantiene l'efficienza del metodo bottom-up saltando la fase di raggruppamento manuale, sfruttando al contempo la precisione dei sistemi top-down rilevando le persone e stimando le loro pose contemporaneamente, in un unico processo semplificato.
Mentre esaminiamo il funzionamento dei modelli di stima della posa, potreste chiedervi: come fanno questi modelli a imparare a stimare la posa di diversi oggetti? È qui che entra in gioco l'idea dell'addestramento personalizzato.
Training personalizzato significa insegnare a un modello a riconoscere specifici punti chiave utilizzando i propri dati. Poiché la creazione di un modello da zero richiede una grande quantità di immagini etichettate e un tempo significativo, molte persone optano per il transfer learning. Questo implica iniziare con un modello che è già stato addestrato su un ampio dataset, come il modello di stima della posa YOLO11, che è pre-addestrato sul dataset COCO-Pose, e poi metterlo a punto con i propri dati per uno specifico compito o caso d'uso.
Supponiamo che tu stia lavorando con posizioni yoga: puoi ottimizzare YOLO11 utilizzando immagini in cui ogni posizione è etichettata con punti chiave specifici per quell'attività. Per fare ciò, avrai bisogno di un set di dati personalizzato di immagini annotate da cui il modello possa apprendere.
Durante l'addestramento, è possibile regolare impostazioni come la dimensione del batch (il numero di immagini elaborate contemporaneamente), il tasso di apprendimento (la velocità con cui il modello aggiorna il suo apprendimento) e le epoche (il numero di volte in cui il modello scorre il set di dati) per migliorare la precisione. Questo rende molto più facile costruire modelli di stima della posa su misura per le vostre esigenze specifiche.
Ora che abbiamo discusso di cosa sia la stima della posa e di come funziona, diamo un'occhiata più da vicino ad alcuni dei suoi casi d'uso nel mondo reale.
La stima della posa sta gradualmente diventando uno strumento affidabile nel settore sanitario, soprattutto nella fisioterapia. Utilizzando l'intelligenza artificiale e la computer vision, questi sistemi possono tracciare la postura e i movimenti in tempo reale e fornire feedback, in modo simile a quanto offrirebbe un fisioterapista.
Ad esempio, un paziente in convalescenza da un intervento chirurgico al ginocchio può utilizzare un sistema di stima della posa per assicurarsi di eseguire correttamente gli esercizi di riabilitazione. Il sistema può individuare eventuali movimenti errati e offrire suggerimenti per il miglioramento, aiutando il paziente a rimanere in carreggiata ed evitare infortuni.

Oltre alla riabilitazione, la stima della posa si sta facendo strada anche nelle app di fitness. Ad esempio, chi si allena a casa può utilizzare l'app per controllare la propria forma fisica durante gli esercizi. L'app può fornire un feedback in tempo reale, come la regolazione dell'angolazione di uno squat o l'assicurarsi che la schiena sia dritta durante un deadlift. Questo aiuta gli utenti a migliorare la loro forma fisica e a prevenire infortuni senza bisogno di un allenatore.
La stima della posa ha cambiato il modo in cui funziona la motion capture nell'intrattenimento, rendendola più semplice e accessibile. In passato, la motion capture richiedeva il posizionamento di marcatori sul corpo di una persona e il loro tracciamento con telecamere speciali, il che poteva essere complicato e costoso.
Ora, con i progressi dell'IA e della computer vision, possiamo utilizzare normali telecamere e algoritmi per tracciare i movimenti del corpo senza bisogno di marcatori, rendendo il processo più efficiente e accurato, anche in tempo reale.
Un ottimo esempio di questo è AR (Realtà Aumentata) Poser di Disney. Questo divertente strumento ti consente di scattare una foto con il tuo telefono e far copiare la tua posa a un personaggio digitale in realtà aumentata. Funziona analizzando la tua posa nella foto e abbinandola a un personaggio 3D, creando un selfie AR divertente e personalizzato.

Studiare il comportamento degli animali aiuta gli scienziati a capire come gli animali comunicano, trovano un partner, si prendono cura dei loro piccoli e vivono in gruppo. Questa conoscenza è fondamentale per proteggere la fauna selvatica e acquisire una comprensione più profonda del mondo naturale.
La stima della posa semplifica questo processo tracciando i movimenti degli animali e la postura utilizzando immagini e video, senza applicare sensori o etichette agli animali. Questi sistemi possono monitorare automaticamente le loro pose, fornendo informazioni su comportamenti come la pulizia, il gioco o il combattimento.
Un esempio interessante è rappresentato dagli scienziati che utilizzano la stima della posa per studiare il comportamento delle scimmie. Infatti, i ricercatori hanno compilato set di dati come OpenApePose, che contiene oltre 71.000 immagini etichettate di sei specie di scimmie.

Ecco alcuni dei principali vantaggi che la stima della posa può apportare a vari settori:
Sebbene i vantaggi della stima della posa siano chiari in vari campi, ci sono anche alcune sfide da considerare. Ecco alcune limitazioni chiave da tenere a mente:
La stima della posa ha fatto molta strada dai suoi primi giorni, evolvendosi da sistemi che utilizzavano marcatori a strumenti di grande impatto guidati da modelli di deep learning come YOLO11. Che si tratti di migliorare la fisioterapia, potenziare le esperienze AR interattive o aiutare nella ricerca sulla fauna selvatica, la stima della posa sta cambiando il modo in cui le macchine comprendono il movimento e la postura. Man mano che la tecnologia continua ad avanzare, affrontare i suoi limiti sarà fondamentale per sbloccare usi ancora più pratici e rendere le macchine più brave a capire come ci muoviamo noi e altri esseri viventi.
Sei curioso di AI? Esplora il nostro repository GitHub, entra in contatto con la nostra community e dai un'occhiata alle nostre opzioni di licenza per dare il via al tuo progetto di computer vision. Scopri di più sulle innovazioni come l'AI nel retail e la computer vision nella logistica sulle nostre pagine delle soluzioni.