La guida definitiva agli strumenti di stima della posa

Come esseri umani, interpretiamo i movimenti in modo istintivo. Quando qualcuno si sporge in avanti, gira la testa o alza un braccio, possiamo immediatamente dedurre cosa sta facendo. Si tratta di un'abilità silenziosa, quasi inconscia, che plasma il modo in cui interagiamo con le persone ed esploriamo il mondo.

Man mano che la tecnologia diventa sempre più parte integrante della nostra vita quotidiana, è naturale desiderare che i nostri dispositivi comprendano i movimenti con la stessa fluidità con cui li comprendiamo noi. I recenti progressi nell'intelligenza artificiale, in particolare quelli basati sul deep learning, stanno rendendo possibile tutto questo. In particolare, la visione artificiale aiuta le macchine a estrarre significato da immagini e video e sta guidando questo progresso.

Ad esempio, la stima della posa è un'attività comune nella visione artificiale che prevede la posizione di punti chiave predefiniti del corpo (come spalle, gomiti, fianchi e ginocchia) in un'immagine o in un fotogramma video. Questi punti chiave possono essere collegati utilizzando una definizione fissa dello scheletro per formare una rappresentazione semplificata della posa.

Modelli di visione artificiale come Ultralytics YOLO11 e il prossimo Ultralytics supportano attività come la stima della postura e possono essere utilizzati per alimentare applicazioni in tempo reale, tra cui feedback sulle forme nel fitness e nello sport, monitoraggio della sicurezza ed esperienze interattive di realtà aumentata.

‍

Fig. 1. Uno sguardo all'utilizzo Ultralytics YOLO11 la stima della posa (Fonte)

‍

In questo articolo approfondiremo gli strumenti di stima della posa e vedremo come funziona la stima della posa, dove viene utilizzata e alcuni dei migliori modelli e librerie disponibili oggi. Cominciamo!

Cos'è la stima della posa?

La stima della posa è una tecnica di visione artificiale che aiuta un sistema a comprendere la posizione di una persona o di un oggetto in un'immagine o in un video. Anziché analizzare ogni pixel in modo uguale, prevede una serie di punti di riferimento coerenti, come la testa, le spalle, i gomiti, i fianchi, le ginocchia e le caviglie.

La maggior parte dei modelli produce le coordinate di questi punti chiave e un punteggio che riflette la probabilità che ciascuna previsione sia corretta. Questi punti chiave possono quindi essere collegati utilizzando un layout scheletrico predefinito per formare una semplice rappresentazione della posa.

Quando vengono applicati fotogramma per fotogramma nei video, i punti chiave risultanti possono essere associati nel tempo per stimare il movimento. Ciò consente applicazioni quali controlli di forma, analisi del movimento e interazione basata sui gesti.

Fig. 2. Un esempio di stima della posa (Fonte)

La necessità di strumenti per la stima della posa

I movimenti umani trasmettono molte informazioni. Il modo in cui una persona si piega, si allunga o sposta il proprio peso può rivelare intenzioni, sforzi, affaticamento o persino rischi di infortunio. Fino a poco tempo fa, per catturare questo livello di dettaglio erano necessari sensori specializzati, tute per il motion capture o ambienti di laboratorio controllati.

La stima della posa cambia questa situazione. L'estrazione dei punti di riferimento chiave del corpo da immagini e video normali consente ai computer di analizzare il movimento utilizzando telecamere standard. Ciò rende l'analisi del movimento più accessibile, scalabile e pratica da utilizzare in contesti reali.

Ecco alcuni modi in cui la stima della posa può avere un impatto:

Luoghi di lavoro più sicuri: i sistemi basati sulla visione possono essere utilizzati per detect posture detect , sforzi ripetitivi o tecniche di sollevamento non sicure prima che si verifichino infortuni.
Migliore preparazione fisica e allenamento sportivo: le soluzioni Vision AI sono in grado di valutare forma, equilibrio e tecnica in tempo reale, fornendo agli utenti un feedback immediato senza bisogno di dispositivi indossabili.
Assistenza sanitaria e riabilitazione: i medici possono track da remoto i progressi track , la postura e l'ampiezza di movimento utilizzando semplici registrazioni video.
Esperienze interattive: la stima della postura rende più facile per gli avatar digitali e gli ambienti immersivi seguire e riflettere accuratamente i movimenti umani.

L'evoluzione degli algoritmi di stima della posa

L'idea di stimare le pose esiste da molti anni. I primi approcci utilizzavano modelli geometrici semplici e regole artigianali, e in genere funzionavano solo in condizioni controllate.

Ad esempio, un sistema potrebbe funzionare bene quando una persona rimane ferma in una posizione fissa, ma smettere di funzionare quando inizia a camminare, girarsi o interagire con oggetti in scene reali. Questi metodi spesso hanno difficoltà con i movimenti naturali, i cambiamenti di angolazione della telecamera, gli sfondi disordinati e l'occlusione parziale.

La moderna stima della posa si affida al deep learning per affrontare queste sfide. Addestrando reti neurali convoluzionali su grandi set di dati etichettati, i modelli apprendono modelli visivi che li aiutano detect in modo più affidabile in diverse pose, persone e ambienti.

Con più esempi, il modello migliora le sue previsioni e diventa più efficace nel generalizzare nuove scene. Grazie a questi progressi, la stima della posa supporta ora un'ampia gamma di casi d'uso pratici, tra cui il monitoraggio e l'ergonomia sul posto di lavoro e l'analisi sportiva, in cui allenatori e analisti studiano il modo in cui si muovono gli atleti.

Tipi di tecniche di stima della posa

La stima della posa può assumere diverse forme, a seconda dell'impostazione e di ciò che si desidera misurare. Ecco i principali tipi che potresti incontrare:

Stima della posa 2D: questo approccio rileva i punti chiave del corpo in un'immagine bidimensionale o in un fotogramma video. Funziona bene con le fotocamere standard ed è efficiente dal punto di vista computazionale, rendendolo adatto per attività come il tracciamento di movimenti di base, l'analisi della postura e il feedback in tempo reale sulla forma.
Stima della posizione 3D: stimando la profondità oltre alle coordinate dell'immagine, la stima della posizione 3D fornisce una comprensione spaziale del movimento del corpo. Ciò è particolarmente utile quando il movimento in avanti e indietro è importante, come nell'analisi sportiva, nella riabilitazione, nella biomeccanica e nell'animazione. Nello specifico, la stima della posizione umana 3D cattura le posizioni delle articolazioni e il movimento nello spazio 3D, riducendo l'ambiguità che può verificarsi con le proiezioni 2D.
Stima della postura di una singola persona: questi sistemi sono progettati per track individuo alla volta. Tendono a funzionare al meglio in ambienti controllati o semi-controllati in cui il soggetto è chiaramente visibile, come applicazioni di esercizi guidati, videochiamate o configurazioni di analisi del movimento.
Stima della posa di più persone: progettato per scene con più persone, questo approccio rileva e traccia simultaneamente le pose di più individui. È particolarmente utile in ambienti affollati come luoghi di lavoro, palestre, spazi pubblici e attività di gruppo, dove i soggetti possono sovrapporsi o occludersi a vicenda.

‍

Fig. 3. Comprensione del movimento umano nello spazio 3D rispetto allo spazio dell'immagine 2D (Fonte)

Comprendere il funzionamento dei modelli di stima della postura umana

La stima della posa può essere applicata a molti tipi di oggetti, ma per semplificare le cose concentriamoci sulla stima della posa umana.

La maggior parte dei sistemi di stima della postura umana viene addestrata su set di dati annotati in cui le parti chiave del corpo sono etichettate in grandi raccolte di immagini e fotogrammi video. Utilizzando questi esempi, il modello apprende i modelli visivi collegati ai punti di riferimento del corpo umano come spalle, gomiti, fianchi, ginocchia e caviglie, in modo da poter prevedere con precisione i punti chiave in scene nuove.

Un altro aspetto fondamentale è l'architettura di inferenza del modello, che determina il modo in cui rileva i punti chiave e li assembla in pose complete. Alcuni sistemi detect prima detect persona e poi stimano i punti chiave all'interno dell'area di ciascuna persona, mentre altri detect nell'intera immagine e poi li raggruppano in individui. I modelli più recenti a stadio singolo sono in grado di prevedere le pose in un unico passaggio, bilanciando velocità e precisione per un utilizzo in tempo reale.

Passiamo ora ad analizzare in dettaglio i diversi approcci alla stima della posa.

Stima della posa dal basso verso l'alto

Con un approccio bottom-up, il modello esamina l'immagine nel suo complesso e individua innanzitutto i punti chiave del corpo, come testa, spalle, gomiti, fianchi, ginocchia e caviglie. In questa fase, non cerca di separare le persone, ma si limita a rilevare tutti i punti chiave o le articolazioni del corpo definiti dallo scheletro della posa nella scena.

Successivamente, il sistema esegue una seconda fase per collegare i punti. Collega i punti chiave che appartengono allo stesso soggetto e li raggruppa in scheletri completi, uno per persona. Poiché non è necessario detect prima detect persona, i metodi bottom-up spesso funzionano bene in scene affollate in cui le persone si sovrappongono, appaiono in dimensioni diverse o sono parzialmente nascoste.

Rilevamento della posa dall'alto verso il basso

Al contrario, i sistemi top-down iniziano rilevando prima ogni persona nell'immagine. Posizionano un riquadro di delimitazione attorno a ogni individuo e trattano ogni riquadro come una regione a sé stante da analizzare.

Una volta isolata una persona, il modello prevede i punti chiave del corpo all'interno di quella regione. Questa configurazione graduale produce spesso risultati molto accurati, specialmente quando nella scena sono presenti solo poche persone e ciascuna di esse è chiaramente visibile.

Stima della posa monostadio o ibrida

I modelli a stadio singolo, talvolta chiamati ibridi, prevedono le pose in un unico passaggio. Anziché eseguire prima il rilevamento delle persone e poi la stima dei punti chiave, essi forniscono contemporaneamente la posizione delle persone e i punti chiave del corpo.

Poiché tutto avviene in un unico modulo, questi modelli sono spesso più veloci ed efficienti, il che li rende particolarmente adatti per usi in tempo reale come il tracciamento del movimento dal vivo e la cattura del movimento. Modelli come Ultralytics YOLO11 costruiti attorno a questa idea, con l'obiettivo di bilanciare la velocità con previsioni affidabili dei punti chiave.

Formazione e valutazione dei modelli di stima della posa

Indipendentemente dall'approccio utilizzato, un modello di stima della posa deve comunque essere addestrato e testato con attenzione prima di poter essere considerato affidabile nel mondo reale. In genere apprende da grandi insiemi di immagini (e talvolta video) in cui sono etichettati i punti chiave del corpo, aiutandolo a gestire diverse pose, angolazioni della telecamera e ambienti.

Alcuni noti set di dati per la stima delle pose includono COCO , MPII Human Pose, CrowdPose e OCHuman. Quando questi set di dati non riflettono le condizioni che il modello dovrà affrontare durante l'implementazione, gli ingegneri spesso raccolgono ed etichettano immagini aggiuntive dall'ambiente di destinazione, come un reparto di produzione, una palestra o una clinica.

Fig. 4. Varie pose valutate utilizzando la visione artificiale (Fonte)

‍

Dopo l'addestramento, le prestazioni del modello vengono valutate sulla base di benchmark standard per misurarne l'accuratezza e la robustezza e per guidare l'ulteriore messa a punto per l'uso nel mondo reale. I risultati vengono spesso riportati utilizzando la precisione media, comunemente indicata come mAP, che riassume le prestazioni attraverso diverse soglie di confidenza confrontando le pose previste con la verità di riferimento etichettata.

In molti benchmark relativi alle pose, una posa prevista viene abbinata a una posa di riferimento utilizzando l'Object Keypoint Similarity (OKS). L'OKS misura la vicinanza dei punti chiave previsti rispetto a quelli annotati, tenendo conto di fattori quali la scala della persona e la difficoltà tipica di localizzazione di ciascun punto chiave.

I modelli Pose generano anche punteggi di affidabilità per le persone rilevate e per i singoli punti chiave. Questi punteggi riflettono l'affidabilità del modello e vengono utilizzati per classificare e filtrare le previsioni, il che è particolarmente importante in condizioni difficili come occlusioni, sfocature dovute al movimento o angolazioni insolite della telecamera.

Strumenti e librerie popolari per la stima delle pose

Oggi sono disponibili molti strumenti di stima della posa, ciascuno dei quali offre un equilibrio tra velocità, precisione e facilità d'uso. Ecco alcuni degli strumenti e delle librerie più utilizzati:

Ultralytics YOLO11: sviluppato come modello Vision AI open source all'avanguardia, YOLO11 su modelli precedenti come Ultralytics YOLOv8. Migliora la velocità, la precisione e l'efficienza complessiva, supportando al contempo varie attività di visione artificiale, tra cui la stima della posa. Con prestazioni elevate su tutte le piattaforme, dai laptop ai dispositivi edge, YOLO11 un'ottima opzione per molte implementazioni nel mondo reale.
Ultralytics : questo modello di nuova generazione di prossima uscita è progettato per essere più leggero, più piccolo e più veloce, pur mantenendo un'elevata precisione. È progettato per l'uso in tempo reale e una più facile implementazione e supporta attività quali il rilevamento di oggetti, la segmentazione di istanze e la stima della posa su modelli di dimensioni adatte a tutto, dai dispositivi edge ai sistemi più grandi.
MediaPipe: è un framework multipiattaforma per la creazione di pipeline di visione artificiale e apprendimento automatico. È leggero e funziona in modo efficiente su dispositivi mobili, tablet e applicazioni web, e include soluzioni e modelli pronti all'uso per la posa completa del corpo, i punti di riferimento del viso e il tracciamento delle mani.
OpenPose: questo sistema end-to-end open source per la stima della posa è ampiamente noto per il rilevamento dei punti chiave di più persone. È in grado di stimare contemporaneamente i punti chiave del corpo, delle mani e del viso ed è comunemente utilizzato nella ricerca, nell'animazione e nell'analisi del movimento.
MMPose: MMPose è un toolkit per la stima della posa PyTorch proveniente dall'ecosistema OpenMMLab. Fornisce numerose implementazioni di modelli, utilità di formazione e opzioni di configurazione, che lo rendono utile per la sperimentazione e la personalizzazione approfondita.
HRNet e AlphaPose: si tratta di modelli di stima della posa più datati, ma ancora oggi utilizzati nella ricerca. HRNet è un'architettura di modelli di posa che mantiene le caratteristiche delle immagini ad alta risoluzione in tutta la rete, consentendo una localizzazione precisa dei punti chiave. AlphaPose è un sistema di stima della posa multipla ampiamente utilizzato, comunemente impiegato quando è richiesta una forte precisione in scene affollate o complesse.

Applicazioni reali dell'analisi e della stima della postura

La stima della posa viene sempre più utilizzata per trasformare normali video in utili informazioni sui movimenti. Tracciando i punti chiave del corpo fotogramma per fotogramma, questi sistemi sono in grado di dedurre la postura, il movimento e il comportamento fisico dalle immagini riprese dalla telecamera, rendendo questa tecnologia pratica in molti contesti reali.

Ad esempio, nel settore sanitario e riabilitativo, il tracciamento della postura può aiutare i medici a vedere e misurare come si muove un paziente durante la terapia e il recupero. Estraendo i punti di riferimento del corpo da normali registrazioni video, è possibile valutare la postura, l'ampiezza di movimento e i modelli di movimento complessivi nel tempo. Queste misurazioni possono supportare e ottimizzare le valutazioni cliniche tradizionali e, in alcuni casi, rendere più facile track senza bisogno di sensori indossabili o attrezzature specializzate.

Allo stesso modo, nello sport e nelle trasmissioni televisive, la stima della posa può analizzare il modo in cui gli atleti si muovono direttamente dai feed video. Un esempio interessante è Hawk-Eye, un sistema di tracciamento basato su telecamere utilizzato negli sport professionistici per l'arbitraggio e la grafica delle trasmissioni. Fornisce anche il tracciamento scheletrico stimando i punti chiave del corpo di un atleta dalle immagini riprese dalla telecamera.

Scegliere lo strumento giusto per la stima della posa

La scelta dello strumento giusto per la stima della posa inizia con la comprensione delle esigenze del proprio progetto di visione artificiale. Alcune applicazioni danno priorità alla velocità in tempo reale, mentre altre richiedono maggiore precisione e dettaglio.

Anche il dispositivo di destinazione influisce sulla scelta. Le app mobili e i dispositivi edge richiedono in genere modelli leggeri ed efficienti, mentre i modelli più grandi sono spesso più adatti ai server o agli ambienti cloud.

Oltre a ciò, anche la facilità d'uso può avere un ruolo importante. Una buona documentazione, un'implementazione fluida e il supporto per la formazione personalizzata possono semplificare il vostro progetto.

In parole povere, strumenti diversi eccellono in ambiti diversi. Ad esempio, YOLO Ultralytics offrono un equilibrio pratico tra velocità, precisione e facilità di implementazione per molte applicazioni reali di stima della posa.

Fig. 5. Stima della postura degli animali utilizzando Ultralytics YOLO11 Fonte)

Punti chiave

La stima della posa aiuta i computer a comprendere i movimenti umani rilevando i punti chiave del corpo nelle immagini e nei video. Modelli come YOLO11 YOLO26 semplificano la creazione di applicazioni in tempo reale per settori quali lo sport, la sanità, la sicurezza sul lavoro e le esperienze interattive. Man mano che i modelli diventano sempre più veloci e precisi, la stima della posa è destinata a diventare una funzionalità comune in molti sistemi di visione artificiale.

Vuoi saperne di più sull'IA? Dai un'occhiata alla nostra community e al nostro repository GitHub. Esplora le pagine dedicate alle nostre soluzioni per scoprire l'IA nella robotica e la visione artificiale nella produzione. Scopri le nostre opzioni di licenza e inizia oggi stesso a sviluppare con la visione artificiale!

La guida definitiva agli strumenti di stima della posa

Cos'è la stima della posa?

La necessità di strumenti per la stima della posa

L'evoluzione degli algoritmi di stima della posa

Tipi di tecniche di stima della posa

Comprendere il funzionamento dei modelli di stima della postura umana

Stima della posa dal basso verso l'alto

Rilevamento della posa dall'alto verso il basso

Stima della posa monostadio o ibrida

Formazione e valutazione dei modelli di stima della posa

Strumenti e librerie popolari per la stima delle pose

Applicazioni reali dell'analisi e della stima della postura

Scegliere lo strumento giusto per la stima della posa

Punti chiave

Leggi di più in questa categoria

Che cos'è la stima della profondità monoculare? Una panoramica

Che cos'è l'elaborazione delle immagini? Una breve introduzione

Che cos'è il template matching? Una guida rapida

Costruiamo insieme il futuro
dell'AI!

La guida definitiva agli strumenti di stima della posa

Cos'è la stima della posa?

La necessità di strumenti per la stima della posa

L'evoluzione degli algoritmi di stima della posa

Tipi di tecniche di stima della posa

Comprendere il funzionamento dei modelli di stima della postura umana

Stima della posa dal basso verso l'alto

Rilevamento della posa dall'alto verso il basso

Stima della posa monostadio o ibrida

Formazione e valutazione dei modelli di stima della posa

Strumenti e librerie popolari per la stima delle pose

Applicazioni reali dell'analisi e della stima della postura

Scegliere lo strumento giusto per la stima della posa

Punti chiave

Leggi di più in questa categoria

Che cos'è la stima della profondità monoculare? Una panoramica

Che cos'è l'elaborazione delle immagini? Una breve introduzione

Che cos'è il template matching? Una guida rapida

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!