Scopri come gli strumenti di stima della posa possono essere utilizzati per detect i punti chiave detect nelle immagini e nei video, stimare le pose 2D e 3D e potenziare varie applicazioni di Vision AI.

Scopri come gli strumenti di stima della posa possono essere utilizzati per detect i punti chiave detect nelle immagini e nei video, stimare le pose 2D e 3D e potenziare varie applicazioni di Vision AI.

Come esseri umani, interpretiamo i movimenti in modo istintivo. Quando qualcuno si sporge in avanti, gira la testa o alza un braccio, possiamo immediatamente dedurre cosa sta facendo. Si tratta di un'abilità silenziosa, quasi inconscia, che plasma il modo in cui interagiamo con le persone ed esploriamo il mondo.
Man mano che la tecnologia diventa sempre più parte integrante della nostra vita quotidiana, è naturale desiderare che i nostri dispositivi comprendano i movimenti con la stessa fluidità con cui li comprendiamo noi. I recenti progressi nell'intelligenza artificiale, in particolare quelli basati sul deep learning, stanno rendendo possibile tutto questo. In particolare, la visione artificiale aiuta le macchine a estrarre significato da immagini e video e sta guidando questo progresso.
Ad esempio, la stima della posa è un'attività comune nella visione artificiale che prevede la posizione di punti chiave predefiniti del corpo (come spalle, gomiti, fianchi e ginocchia) in un'immagine o in un fotogramma video. Questi punti chiave possono essere collegati utilizzando una definizione fissa dello scheletro per formare una rappresentazione semplificata della posa.
Modelli di visione artificiale come Ultralytics YOLO11 e il prossimo Ultralytics supportano attività come la stima della postura e possono essere utilizzati per alimentare applicazioni in tempo reale, tra cui feedback sulle forme nel fitness e nello sport, monitoraggio della sicurezza ed esperienze interattive di realtà aumentata.
.webp)
In questo articolo approfondiremo gli strumenti di stima della posa e vedremo come funziona la stima della posa, dove viene utilizzata e alcuni dei migliori modelli e librerie disponibili oggi. Cominciamo!
La stima della posa è una tecnica di visione artificiale che aiuta un sistema a comprendere la posizione di una persona o di un oggetto in un'immagine o in un video. Anziché analizzare ogni pixel in modo uguale, prevede una serie di punti di riferimento coerenti, come la testa, le spalle, i gomiti, i fianchi, le ginocchia e le caviglie.
La maggior parte dei modelli produce le coordinate di questi punti chiave e un punteggio che riflette la probabilità che ciascuna previsione sia corretta. Questi punti chiave possono quindi essere collegati utilizzando un layout scheletrico predefinito per formare una semplice rappresentazione della posa.
Quando vengono applicati fotogramma per fotogramma nei video, i punti chiave risultanti possono essere associati nel tempo per stimare il movimento. Ciò consente applicazioni quali controlli di forma, analisi del movimento e interazione basata sui gesti.
.webp)
I movimenti umani trasmettono molte informazioni. Il modo in cui una persona si piega, si allunga o sposta il proprio peso può rivelare intenzioni, sforzi, affaticamento o persino rischi di infortunio. Fino a poco tempo fa, per catturare questo livello di dettaglio erano necessari sensori specializzati, tute per il motion capture o ambienti di laboratorio controllati.
La stima della posa cambia questa situazione. L'estrazione dei punti di riferimento chiave del corpo da immagini e video normali consente ai computer di analizzare il movimento utilizzando telecamere standard. Ciò rende l'analisi del movimento più accessibile, scalabile e pratica da utilizzare in contesti reali.
Ecco alcuni modi in cui la stima della posa può avere un impatto:
L'idea di stimare le pose esiste da molti anni. I primi approcci utilizzavano modelli geometrici semplici e regole artigianali, e in genere funzionavano solo in condizioni controllate.
Ad esempio, un sistema potrebbe funzionare bene quando una persona rimane ferma in una posizione fissa, ma smettere di funzionare quando inizia a camminare, girarsi o interagire con oggetti in scene reali. Questi metodi spesso hanno difficoltà con i movimenti naturali, i cambiamenti di angolazione della telecamera, gli sfondi disordinati e l'occlusione parziale.
La moderna stima della posa si affida al deep learning per affrontare queste sfide. Addestrando reti neurali convoluzionali su grandi set di dati etichettati, i modelli apprendono modelli visivi che li aiutano detect in modo più affidabile in diverse pose, persone e ambienti.
Con più esempi, il modello migliora le sue previsioni e diventa più efficace nel generalizzare nuove scene. Grazie a questi progressi, la stima della posa supporta ora un'ampia gamma di casi d'uso pratici, tra cui il monitoraggio e l'ergonomia sul posto di lavoro e l'analisi sportiva, in cui allenatori e analisti studiano il modo in cui si muovono gli atleti.
La stima della posa può assumere diverse forme, a seconda dell'impostazione e di ciò che si desidera misurare. Ecco i principali tipi che potresti incontrare:
.webp)
La stima della posa può essere applicata a molti tipi di oggetti, ma per semplificare le cose concentriamoci sulla stima della posa umana.
La maggior parte dei sistemi di stima della postura umana viene addestrata su set di dati annotati in cui le parti chiave del corpo sono etichettate in grandi raccolte di immagini e fotogrammi video. Utilizzando questi esempi, il modello apprende i modelli visivi collegati ai punti di riferimento del corpo umano come spalle, gomiti, fianchi, ginocchia e caviglie, in modo da poter prevedere con precisione i punti chiave in scene nuove.
Un altro aspetto fondamentale è l'architettura di inferenza del modello, che determina il modo in cui rileva i punti chiave e li assembla in pose complete. Alcuni sistemi detect prima detect persona e poi stimano i punti chiave all'interno dell'area di ciascuna persona, mentre altri detect nell'intera immagine e poi li raggruppano in individui. I modelli più recenti a stadio singolo sono in grado di prevedere le pose in un unico passaggio, bilanciando velocità e precisione per un utilizzo in tempo reale.
Passiamo ora ad analizzare in dettaglio i diversi approcci alla stima della posa.
Con un approccio bottom-up, il modello esamina l'immagine nel suo complesso e individua innanzitutto i punti chiave del corpo, come testa, spalle, gomiti, fianchi, ginocchia e caviglie. In questa fase, non cerca di separare le persone, ma si limita a rilevare tutti i punti chiave o le articolazioni del corpo definiti dallo scheletro della posa nella scena.
Successivamente, il sistema esegue una seconda fase per collegare i punti. Collega i punti chiave che appartengono allo stesso soggetto e li raggruppa in scheletri completi, uno per persona. Poiché non è necessario detect prima detect persona, i metodi bottom-up spesso funzionano bene in scene affollate in cui le persone si sovrappongono, appaiono in dimensioni diverse o sono parzialmente nascoste.
Al contrario, i sistemi top-down iniziano rilevando prima ogni persona nell'immagine. Posizionano un riquadro di delimitazione attorno a ogni individuo e trattano ogni riquadro come una regione a sé stante da analizzare.
Una volta isolata una persona, il modello prevede i punti chiave del corpo all'interno di quella regione. Questa configurazione graduale produce spesso risultati molto accurati, specialmente quando nella scena sono presenti solo poche persone e ciascuna di esse è chiaramente visibile.
I modelli a stadio singolo, talvolta chiamati ibridi, prevedono le pose in un unico passaggio. Anziché eseguire prima il rilevamento delle persone e poi la stima dei punti chiave, essi forniscono contemporaneamente la posizione delle persone e i punti chiave del corpo.
Poiché tutto avviene in un unico modulo, questi modelli sono spesso più veloci ed efficienti, il che li rende particolarmente adatti per usi in tempo reale come il tracciamento del movimento dal vivo e la cattura del movimento. Modelli come Ultralytics YOLO11 costruiti attorno a questa idea, con l'obiettivo di bilanciare la velocità con previsioni affidabili dei punti chiave.
Indipendentemente dall'approccio utilizzato, un modello di stima della posa deve comunque essere addestrato e testato con attenzione prima di poter essere considerato affidabile nel mondo reale. In genere apprende da grandi insiemi di immagini (e talvolta video) in cui sono etichettati i punti chiave del corpo, aiutandolo a gestire diverse pose, angolazioni della telecamera e ambienti.
Alcuni noti set di dati per la stima delle pose includono COCO , MPII Human Pose, CrowdPose e OCHuman. Quando questi set di dati non riflettono le condizioni che il modello dovrà affrontare durante l'implementazione, gli ingegneri spesso raccolgono ed etichettano immagini aggiuntive dall'ambiente di destinazione, come un reparto di produzione, una palestra o una clinica.
.webp)
Dopo l'addestramento, le prestazioni del modello vengono valutate sulla base di benchmark standard per misurarne l'accuratezza e la robustezza e per guidare l'ulteriore messa a punto per l'uso nel mondo reale. I risultati vengono spesso riportati utilizzando la precisione media, comunemente indicata come mAP, che riassume le prestazioni attraverso diverse soglie di confidenza confrontando le pose previste con la verità di riferimento etichettata.
In molti benchmark relativi alle pose, una posa prevista viene abbinata a una posa di riferimento utilizzando l'Object Keypoint Similarity (OKS). L'OKS misura la vicinanza dei punti chiave previsti rispetto a quelli annotati, tenendo conto di fattori quali la scala della persona e la difficoltà tipica di localizzazione di ciascun punto chiave.
I modelli Pose generano anche punteggi di affidabilità per le persone rilevate e per i singoli punti chiave. Questi punteggi riflettono l'affidabilità del modello e vengono utilizzati per classificare e filtrare le previsioni, il che è particolarmente importante in condizioni difficili come occlusioni, sfocature dovute al movimento o angolazioni insolite della telecamera.
Oggi sono disponibili molti strumenti di stima della posa, ciascuno dei quali offre un equilibrio tra velocità, precisione e facilità d'uso. Ecco alcuni degli strumenti e delle librerie più utilizzati:
La stima della posa viene sempre più utilizzata per trasformare normali video in utili informazioni sui movimenti. Tracciando i punti chiave del corpo fotogramma per fotogramma, questi sistemi sono in grado di dedurre la postura, il movimento e il comportamento fisico dalle immagini riprese dalla telecamera, rendendo questa tecnologia pratica in molti contesti reali.
Ad esempio, nel settore sanitario e riabilitativo, il tracciamento della postura può aiutare i medici a vedere e misurare come si muove un paziente durante la terapia e il recupero. Estraendo i punti di riferimento del corpo da normali registrazioni video, è possibile valutare la postura, l'ampiezza di movimento e i modelli di movimento complessivi nel tempo. Queste misurazioni possono supportare e ottimizzare le valutazioni cliniche tradizionali e, in alcuni casi, rendere più facile track senza bisogno di sensori indossabili o attrezzature specializzate.
Allo stesso modo, nello sport e nelle trasmissioni televisive, la stima della posa può analizzare il modo in cui gli atleti si muovono direttamente dai feed video. Un esempio interessante è Hawk-Eye, un sistema di tracciamento basato su telecamere utilizzato negli sport professionistici per l'arbitraggio e la grafica delle trasmissioni. Fornisce anche il tracciamento scheletrico stimando i punti chiave del corpo di un atleta dalle immagini riprese dalla telecamera.
La scelta dello strumento giusto per la stima della posa inizia con la comprensione delle esigenze del proprio progetto di visione artificiale. Alcune applicazioni danno priorità alla velocità in tempo reale, mentre altre richiedono maggiore precisione e dettaglio.
Anche il dispositivo di destinazione influisce sulla scelta. Le app mobili e i dispositivi edge richiedono in genere modelli leggeri ed efficienti, mentre i modelli più grandi sono spesso più adatti ai server o agli ambienti cloud.
Oltre a ciò, anche la facilità d'uso può avere un ruolo importante. Una buona documentazione, un'implementazione fluida e il supporto per la formazione personalizzata possono semplificare il vostro progetto.
In parole povere, strumenti diversi eccellono in ambiti diversi. Ad esempio, YOLO Ultralytics offrono un equilibrio pratico tra velocità, precisione e facilità di implementazione per molte applicazioni reali di stima della posa.

La stima della posa aiuta i computer a comprendere i movimenti umani rilevando i punti chiave del corpo nelle immagini e nei video. Modelli come YOLO11 YOLO26 semplificano la creazione di applicazioni in tempo reale per settori quali lo sport, la sanità, la sicurezza sul lavoro e le esperienze interattive. Man mano che i modelli diventano sempre più veloci e precisi, la stima della posa è destinata a diventare una funzionalità comune in molti sistemi di visione artificiale.
Vuoi saperne di più sull'IA? Dai un'occhiata alla nostra community e al nostro repository GitHub. Esplora le pagine dedicate alle nostre soluzioni per scoprire l'IA nella robotica e la visione artificiale nella produzione. Scopri le nostre opzioni di licenza e inizia oggi stesso a sviluppare con la visione artificiale!