La guida definitiva agli strumenti di stima della posa
Scopri come gli strumenti di stima della posa possono essere utilizzati per rilevare i keypoint del corpo in immagini e video, stimare pose 2D e 3D e alimentare varie applicazioni di Vision AI.

Come esseri umani, leggiamo il movimento in modo istintivo. Quando qualcuno si sporge in avanti, gira la testa o solleva un braccio, puoi intuire immediatamente cosa stia facendo. È un'abilità silenziosa, quasi subconscia, che modella il modo in cui interagiamo con le persone ed esploriamo il mondo.
Poiché la tecnologia diventa una parte sempre più importante della vita quotidiana, è naturale voler che i nostri dispositivi comprendano il movimento con la stessa naturalezza. I recenti progressi nell'intelligenza artificiale, in particolare quelli basati sul deep learning, lo stanno rendendo possibile. In particolare, la computer vision aiuta le macchine a estrarre significato da immagini e video e sta guidando questo progresso.
Ad esempio, la stima della posa è un comune compito di computer vision che predice le posizioni di keypoint corporei predefiniti (come spalle, gomiti, anche e ginocchia) in un'immagine o in un frame video. Questi keypoint possono essere collegati utilizzando una definizione di scheletro fissa per formare una rappresentazione semplificata della posa.
Modelli di computer vision come Ultralytics YOLO11 e il futuro Ultralytics YOLO26 supportano compiti come la stima della posa e possono essere utilizzati per alimentare applicazioni in tempo reale, tra cui feedback sulla forma nel fitness e nello sport, monitoraggio della sicurezza ed esperienze interattive di realtà aumentata.

Fig 1. Uno sguardo all'utilizzo di Ultralytics YOLO11 per la stima della posa (Source)
In questo articolo, analizzeremo a fondo gli strumenti di stima della posa e vedremo come funziona la stima della posa, dove viene utilizzata e alcuni dei migliori modelli e librerie disponibili oggi. Iniziamo!
Link to this sectionCos'è la stima della posa?#
La stima della posa è una tecnica di computer vision che aiuta un sistema a capire come una persona o un oggetto è posizionato in un'immagine o in un video. Invece di analizzare ogni pixel allo stesso modo, predice una serie di punti di riferimento coerenti, come testa, spalle, gomiti, anche, ginocchia e caviglie.
La maggior parte dei modelli fornisce in output le coordinate di questi keypoint e un punteggio che riflette quanto sia probabile che ogni previsione sia corretta. Questi keypoint possono poi essere collegati utilizzando un layout di scheletro predefinito per formare una semplice rappresentazione della posa.
Quando applicati frame per frame nei video, i keypoint risultanti possono essere associati nel tempo per stimare il movimento. Questo abilita applicazioni come il controllo della forma, l'analisi del movimento e l'interazione basata sui gesti.

Fig 2. Un esempio di stima della posa (Source)
Link to this sectionIl bisogno di strumenti di stima della posa#
Il movimento umano contiene molte informazioni. Il modo in cui qualcuno si piega, si allunga o sposta il proprio peso può rivelare intenzione, sforzo, affaticamento o persino il rischio di infortuni. Fino a poco tempo fa, catturare quel livello di dettaglio richiedeva solitamente sensori specializzati, tute per il motion-capture o ambienti di laboratorio controllati.
La stima della posa cambia tutto questo. Estrarre i punti di riferimento del corpo da normali immagini e video permette ai computer di analizzare il movimento utilizzando fotocamere standard. Questo rende l'analisi del movimento più accessibile, scalabile e pratica da utilizzare in contesti reali.
Ecco alcuni modi in cui la stima della posa può creare un impatto:
- Luoghi di lavoro più sicuri: i sistemi basati sulla visione possono essere utilizzati per rilevare posture rischiose, sforzi ripetitivi o tecniche di sollevamento non sicure prima che si verifichino infortuni.
- Migliore formazione nel fitness e nello sport: le soluzioni di AI basate sulla visione possono valutare forma, equilibrio e tecnica in tempo reale, fornendo agli utenti un feedback immediato senza indossabili.
- Assistenza sanitaria e riabilitazione: i medici possono monitorare il progresso del recupero, la postura e il range di movimento da remoto utilizzando semplici registrazioni video.
- Esperienze interattive: la stima della posa rende più facile per gli avatar digitali e gli ambienti immersivi seguire e riflettere accuratamente il movimento umano.
Link to this sectionL'evoluzione degli algoritmi di stima della posa#
L'idea di stimare le pose esiste da molti anni. Gli approcci iniziali utilizzavano modelli geometrici semplici e regole create manualmente, e solitamente funzionavano solo in condizioni controllate.
Ad esempio, un sistema potrebbe funzionare bene quando una persona sta ferma in una posizione fissa, ma fallire quando inizia a camminare, girarsi o interagire con oggetti in scene del mondo reale. Questi metodi spesso faticavano con il movimento naturale, i cambi di angolazione della telecamera, sfondi ingombri e occlusioni parziali.
La moderna stima della posa si basa sul deep learning per gestire queste sfide. Allenando reti neurali convoluzionali su grandi dataset etichettati, i modelli apprendono schemi visivi che li aiutano a rilevare i keypoint in modo più affidabile tra pose, persone e ambienti diversi.
Con più esempi, il modello migliora le sue previsioni e diventa migliore nel generalizzare a nuove scene. Grazie a questo progresso, la stima della posa ora supporta una vasta gamma di casi d'uso pratici, inclusi il monitoraggio sul posto di lavoro e l'ergonomia, e l'analisi sportiva, dove allenatori e analisti studiano come si muovono gli atleti.
Link to this sectionTipi di tecniche di stima della posa#
La stima della posa si presenta in diverse forme, a seconda dell'impostazione e di ciò che devi misurare. Ecco i tipi principali che incontrerai:
- Stima della posa 2D: Questo approccio rileva i keypoint corporei in un'immagine o un frame video bidimensionale. Funziona bene con fotocamere standard ed è efficiente dal punto di vista computazionale, rendendolo adatto a compiti come il tracking di base del movimento, l'analisi della postura e il feedback sulla forma in tempo reale.
- Stima della posa 3D: Stimando la profondità oltre alle coordinate dell'immagine, la stima della posa 3D fornisce una comprensione spaziale del movimento corporeo. È particolarmente utile quando il movimento in avanti e all'indietro è importante, come nell'analisi sportiva, nella riabilitazione, nella biomeccanica e nell'animazione. Nello specifico, la stima della posa umana 3D cattura le posizioni delle articolazioni e il movimento nello spazio 3D, riducendo l'ambiguità che può verificarsi con le proiezioni 2D.
- Stima della posa di una singola persona: Questi sistemi sono progettati per tracciare un individuo alla volta. Tendono a funzionare meglio in ambienti controllati o semi-controllati in cui il soggetto è chiaramente visibile, come applicazioni di esercizi guidati, chiamate video o configurazioni di analisi del movimento.
- Stima della posa multi-persona: Costruito per scene con più persone, questo approccio rileva e traccia le pose per diversi individui contemporaneamente. È particolarmente utile in ambienti affollati come luoghi di lavoro, palestre, spazi pubblici e attività di gruppo, dove i soggetti potrebbero sovrapporsi o oscurarsi a vicenda.

Fig 3. Comprendere il movimento umano nello spazio 3D rispetto allo spazio immagine 2D (Fonte)
Link to this sectionComprendere come funzionano i modelli di stima della posa umana#
La stima della posa può essere applicata a molti tipi di oggetti, ma per semplificare le cose, concentriamoci sulla stima della posa umana.
La maggior parte dei sistemi di stima della posa umana è addestrata su dataset annotati in cui le parti del corpo chiave sono etichettate in vaste collezioni di immagini e frame video. Utilizzando questi esempi, il modello apprende schemi visivi collegati ai punti di riferimento del corpo umano come spalle, gomiti, anche, ginocchia e caviglie, così da poter predire accuratamente i keypoint in nuove scene.
Un altro aspetto chiave è l'architettura di inferenza del modello, che determina come rileva i keypoint e li assembla in pose complete. Alcuni sistemi rilevano prima ogni persona e poi stimano i keypoint all'interno della regione di ciascuna persona, mentre altri rilevano i keypoint nell'intera immagine e poi li raggruppano in individui. I design a stadio singolo più recenti possono predire le pose in un unico passaggio, bilanciando velocità e precisione per l'uso in tempo reale.
Successivamente, esaminiamo in dettaglio diversi approcci alla stima della posa.
Link to this sectionStima della posa bottom-up#
In un approccio bottom-up, il modello guarda l'intera immagine e trova prima i keypoint del corpo, come testa, spalle, gomiti, anche, ginocchia e caviglie. In questa fase, non sta cercando di separare le persone. Sta semplicemente rilevando tutti i keypoint o le articolazioni del corpo definite dallo scheletro della posa nell'intera scena.
Successivamente, il sistema esegue un secondo passaggio per collegare i punti. Collega i keypoint che appartengono l'uno all'altro e li raggruppa in scheletri completi, uno per persona. Poiché non ha bisogno di rilevare prima ogni persona, i metodi bottom-up funzionano spesso bene in scene affollate in cui le persone si sovrappongono, appaiono in dimensioni diverse o sono parzialmente nascoste.
Link to this sectionRilevamento della posa top-down#
Al contrario, i sistemi top-down iniziano rilevando prima ogni persona nell'immagine. Posizionano un bounding box attorno a ogni individuo e trattano ogni box come la propria regione da analizzare.
Una volta isolata una persona, il modello predice i keypoint del corpo all'interno di quella regione. Questa configurazione passo dopo passo produce spesso risultati molto accurati, specialmente quando ci sono poche persone nella scena e ogni persona è chiaramente visibile.
Link to this sectionStima della posa a stadio singolo o ibrida#
I modelli a stadio singolo, a volte chiamati ibridi, predicono le pose in un unico passaggio. Invece di eseguire prima il rilevamento della persona e poi la stima dei keypoint, inviano in output la posizione della persona e i keypoint del corpo allo stesso tempo.
Poiché tutto avviene in un unico modulo, questi modelli sono spesso più veloci ed efficienti, il che li rende una soluzione ideale per usi in tempo reale come il tracciamento del movimento dal vivo e il motion capture. Modelli come Ultralytics YOLO11 sono costruiti attorno a questa idea, mirando a bilanciare velocità con previsioni affidabili dei keypoint.
Link to this sectionAddestramento e valutazione dei modelli di stima della posa#
Indipendentemente dall'approccio utilizzato, un modello di stima della posa deve comunque essere addestrato e testato attentamente prima di essere affidabile nel mondo reale. Solitamente apprende da grandi set di immagini (e talvolta video) dove i keypoint corporei sono etichettati, aiutandolo a gestire diverse pose, angolazioni della telecamera e ambienti.
Alcuni noti dataset di stima della posa includono COCO Keypoints, MPII Human Pose, CrowdPose e OCHuman. Quando questi dataset non riflettono le condizioni che il modello affronterà durante la distribuzione, gli ingegneri spesso raccolgono ed etichettano immagini aggiuntive dall'ambiente di destinazione, come un piano di fabbrica, una palestra o una clinica.

Fig 4. Varie pose stimate utilizzando la computer vision (Source)
Dopo l'addestramento, le prestazioni del modello vengono valutate su benchmark standard per misurare accuratezza e robustezza e per guidare ulteriori regolazioni per l'uso nel mondo reale. I risultati sono spesso riportati utilizzando la mean average precision, comunemente indicata come mAP, che riassume le prestazioni attraverso diverse soglie di confidenza confrontando le pose predette con la ground truth etichettata.
In molti benchmark di posa, una posa predetta viene abbinata a una posa ground-truth utilizzando l'Object Keypoint Similarity (OKS). L'OKS misura quanto sono vicini i keypoint predetti ai keypoint annotati, tenendo conto di fattori come la scala della persona e la tipica difficoltà di localizzazione di ciascun keypoint.
I modelli di posa emettono anche punteggi di confidenza per le persone rilevate e per i singoli keypoint. Questi punteggi riflettono la confidenza del modello e vengono utilizzati per classificare e filtrare le previsioni, il che è particolarmente importante in condizioni difficili come occlusione, motion blur o angolazioni della telecamera insolite.
Link to this sectionStrumenti e librerie di stima della posa popolari#
Molti strumenti di stima della posa sono disponibili oggi, ciascuno dei quali bilancia velocità, accuratezza e facilità d'uso. Ecco alcuni degli strumenti e delle librerie più utilizzati:
- Ultralytics YOLO11: Sviluppato come modello di visione AI open-source all'avanguardia, YOLO11 si basa su modelli precedenti come Ultralytics YOLOv8. Migliora velocità, accuratezza ed efficienza complessiva supportando vari compiti di computer vision, inclusa la stima della posa. Con prestazioni solide su diverse piattaforme, dai laptop ai dispositivi edge, YOLO11 è un'ottima opzione per molte distribuzioni nel mondo reale.
- Ultralytics YOLO26: Questo futuro modello di prossima generazione è progettato per essere più leggero, piccolo e veloce, pur mantenendo un'accuratezza solida. È costruito per l'uso in tempo reale e una distribuzione più semplice, e supporta compiti come il rilevamento di oggetti, la segmentazione di istanze e la stima della posa in dimensioni di modello adatte a tutto, dai dispositivi edge ai sistemi più grandi.
- MediaPipe: È un framework multipiattaforma per costruire pipeline di visione e machine learning. È leggero ed efficiente su dispositivi mobili, tablet e app web, e include soluzioni e modelli pronti all'uso per la posa dell'intero corpo, punti di riferimento del volto e tracciamento delle mani.
- OpenPose: Questo sistema di stima della posa end-to-end open-source è ampiamente conosciuto per il rilevamento di keypoint multi-persona. Può stimare i keypoint di corpo, mani e viso insieme, ed è comunemente usato nella ricerca, nell'animazione e nell'analisi del movimento.
- MMPose: MMPose è un toolkit di stima della posa basato su PyTorch dell'ecosistema OpenMMLab. Fornisce molte implementazioni di modelli, utility di addestramento e opzioni di configurazione, che lo rendono utile per la sperimentazione e la personalizzazione profonda.
- HRNet e AlphaPose: Questi sono modelli di stima della posa più vecchi che sono ancora utilizzati oggi nella ricerca. HRNet è un'architettura di modello di posa che mantiene caratteristiche dell'immagine ad alta risoluzione durante tutta la rete, il che lo aiuta a localizzare i keypoint con precisione. AlphaPose è un sistema di stima della posa multi-persona ampiamente utilizzato, comune quando è richiesta un'accuratezza elevata in scene affollate o complesse.
Link to this sectionApplicazioni nel mondo reale dell'analisi e della stima della posa#
La stima della posa viene sempre più utilizzata per trasformare video ordinari in utili intuizioni sul movimento. Tracciando i keypoint del corpo frame per frame, questi sistemi possono dedurre postura, movimento e comportamento fisico dai feed delle telecamere, rendendo tale tecnologia pratica in molti contesti reali.
Ad esempio, nell'assistenza sanitaria e nella riabilitazione, il tracciamento della posa può aiutare i medici a vedere e misurare come un paziente si muove durante la terapia e il recupero. Estraendo i punti di riferimento del corpo da normali registrazioni video, può essere utilizzato per valutare postura, range di movimento e modelli di movimento complessivi nel tempo. Queste misurazioni possono supportare e ottimizzare le valutazioni cliniche tradizionali e, in alcuni casi, rendere più semplice monitorare il progresso senza bisogno di sensori indossabili o attrezzature specializzate.
Allo stesso modo, nello sport e nel broadcasting, la stima della posa può analizzare come gli atleti si muovono direttamente dai feed video. Un esempio interessante è Hawk-Eye, un sistema di tracciamento basato su telecamere utilizzato negli sport professionistici per l'arbitraggio e la grafica di trasmissione. Fornisce anche il tracciamento scheletrico stimando i keypoint del corpo di un atleta dalle visualizzazioni delle telecamere.
Link to this sectionScegliere lo strumento giusto per la stima della posa#
Scegliere lo strumento giusto per la stima della posa inizia con la comprensione delle esigenze del tuo progetto di computer vision. Alcune applicazioni danno priorità alla velocità in tempo reale, mentre altre richiedono maggiore accuratezza e dettaglio.
Anche il dispositivo di distribuzione target fa la differenza. Le app mobili e i dispositivi edge richiedono solitamente modelli leggeri ed efficienti, mentre i modelli più grandi sono spesso una soluzione migliore per server o ambienti cloud.
Oltre a questo, la facilità d'uso può giocare un ruolo. Una buona documentazione, una distribuzione fluida e il supporto per l'addestramento personalizzato possono ottimizzare il tuo progetto.
In parole povere, strumenti diversi eccellono in aree diverse. Ad esempio, i modelli Ultralytics YOLO forniscono un pratico equilibrio di velocità, accuratezza e facilità di distribuzione per molte applicazioni di stima della posa nel mondo reale.

Fig 5. Stima della posa animale utilizzando Ultralytics YOLO11 (Source)
Link to this sectionPunti chiave#
La stima della posa aiuta i computer a comprendere il movimento umano rilevando i keypoint del corpo nelle immagini e nei video. Modelli come YOLO11 e YOLO26 rendono più semplice costruire applicazioni in tempo reale per aree come sport, assistenza sanitaria, sicurezza sul posto di lavoro ed esperienze interattive. Poiché i modelli continuano a diventare più veloci e accurati, la stima della posa diventerà probabilmente una funzionalità comune in molti sistemi di visione AI.
Vuoi saperne di più sull'AI? Dai un'occhiata alla nostra community e al repository GitHub. Esplora le nostre pagine di soluzioni per conoscere l'AI nella robotica e la computer vision nella produzione. Scopri le nostre opzioni di licenza e inizia a costruire con la computer vision oggi stesso!






