Cos'è OpenPose? Esploriamo una pietra miliare nella stima della posa
Esplora come OpenPose può essere utilizzato per la stima della posa nelle applicazioni di computer vision. Scopri le sue caratteristiche e il suo significato nella vision IA.

Oggi, le immagini e le fotocamere sono ovunque: integrate nei nostri telefoni, nelle case e persino negli spazi pubblici. Facciamo affidamento su di esse non solo per catturare i momenti, ma per aiutarci a comprendere e interagire con il mondo che ci circonda.
Dietro le quinte, la computer vision, un sottocampo dell'intelligenza artificiale (AI), rende tutto questo possibile permettendo alle macchine di interpretare i dati visivi. Consente ai sistemi di rilevare oggetti, riconoscere volti e tracciare il movimento, svolgendo un ruolo chiave in molte delle tecnologie che usiamo ogni giorno.
Grazie ai recenti progressi nell'AI, i modelli di computer vision possono ora analizzare ed estrarre dati e approfondimenti più complessi. Un esempio di ciò è la stima della posa, un compito di computer vision focalizzato sulla comprensione del movimento umano.
Funziona identificando i punti chiave sul corpo, come spalle, gomiti e ginocchia, in immagini o video. Ciò rende possibile analizzare come le persone si muovono, consentendo applicazioni nel monitoraggio del fitness, nell'animazione, nell'assistenza sanitaria e altro ancora.
Tra i molti strumenti sviluppati per la stima della posa, OpenPose si distingue come una svolta importante. Creato dai ricercatori del Perceptual Computing Lab della Carnegie Mellon University, è stato uno dei primi sistemi open source in grado di rilevare pose a corpo intero, inclusi mani, piedi e punti chiave facciali, per più persone in tempo reale usando solo una fotocamera (con fino a 135 punti chiave per persona).
In questo articolo, esploreremo OpenPose, come funziona e il suo significato come pietra miliare nella computer vision.

Fig 1. Stima della posa multi-persona usando OpenPose.
Link to this sectionUno sguardo alla storia della stima della posa#
Prima che l'AI fosse ampiamente adottata, tracciare il movimento umano nei video comportava l'uso di attrezzature specializzate. In settori come il cinema e l'animazione, gli attori spesso indossavano tute con marcatori riflettenti in modo che le fotocamere potessero catturare i loro movimenti in un ambiente di studio controllato.
Sebbene queste tecniche di motion capture basate su marcatori fossero accurate, erano anche costose e limitate a setup specifici. Con il progredire della computer vision, i ricercatori hanno cercato modi per tracciare il movimento del corpo senza usare marcatori. Hanno usato bordi, contorni e modelli per trovare sagome umane nelle immagini.
Questi primi sistemi funzionavano in casi semplici e diretti, ma faticavano con scenari del mondo reale. Spesso davano risultati scarsi quando le persone si muovevano in modi imprevisti o quando appariva più di una persona in un frame.
Alla fine degli anni 2010, il deep learning ha portato un cambiamento importante nella stima della posa. I modelli di Vision AI potevano essere addestrati su grandi dataset di pose umane. Invece di fare affidamento su bordi e modelli, i sistemi hanno imparato a riconoscere le articolazioni e la struttura del corpo studiando migliaia di immagini etichettate. Questo ha reso la stima della posa più accurata, flessibile e incisiva in una gamma più ampia di contesti.

Fig 2. L'evoluzione dei modelli di stima della posa umana dal 2017 al 2023.
Link to this sectionOpenPose: Dove è decollata la moderna stima della posa#
OpenPose è stato rilasciato per la prima volta nel 2017 ed è in grado di stimare le pose di più persone contemporaneamente in una singola immagine. A differenza dei sistemi più vecchi, OpenPose non richiede tute speciali o marcatori. Funziona con fotocamere standard e può elaborare immagini e video in tempo reale. Queste caratteristiche hanno reso la stima della posa più accessibile a sviluppatori e ricercatori.
Le basi gettate da OpenPose per la computer vision hanno aiutato altri a costruire architetture più recenti per una varietà di altre applicazioni. Oggi, modelli di Vision AI come Ultralytics YOLOv8 e Ultralytics YOLO11 che supportano compiti di stima della posa offrono risultati più rapidi e una latenza inferiore.

Fig 3. Uso di YOLO11 per la stima della posa.
Tuttavia, OpenPose è un ottimo punto di partenza se sei curioso di sapere come si è evoluta la stima della posa. Ha introdotto concetti chiave su cui molti sistemi più recenti si basano ancora oggi.
Link to this sectionLe capacità chiave di OpenPose#
Ora che abbiamo una migliore comprensione del perché OpenPose è importante, diamo un'occhiata più da vicino a ciò che può effettivamente fare.
Al centro delle capacità di OpenPose c'è qualcosa chiamato rilevamento dei keypoint. I keypoint sono punti di riferimento specifici sul corpo umano, come la punta del naso, il centro delle spalle, gomiti, polsi, anche, ginocchia e caviglie. OpenPose può rilevare fino a 135 di questi punti per persona, incluse aree dettagliate come dita e tratti facciali.
Quando questi punti vengono collegati, formano una rappresentazione semplificata del corpo umano; puoi immaginarlo come uno scheletro digitale. Questo profilo scheletrico mostra non solo dove si trova una persona, ma come è in posa: se è seduta, in piedi, saluta, sorride o cammina. I computer possono interpretare il movimento umano visivamente usando questi scheletri, proprio come noi comprendiamo istintivamente il linguaggio del corpo di qualcuno.
Il tracciamento scheletrico è particolarmente utile perché elimina il rumore di fondo e le distrazioni, lasciando che il sistema si concentri puramente sulla postura e sul movimento umano. Invece di analizzare ogni pixel, OpenPose si concentra su punti significativi che raccontano la storia di come una persona si sta muovendo o interagendo.
Estrarre queste informazioni strutturate da immagini o video quotidiani, OpenPose rende possibile creare applicazioni che rispondono ai gesti, monitorano l'attività fisica, valutano segnali emotivi o persino animano personaggi digitali.
Link to this sectionCome funziona OpenPose?#
Ecco una panoramica di come OpenPose rileva e collega i keypoint sul corpo umano dall'input visivo:
- Inizia con un'immagine: OpenPose prende una singola immagine da una foto, un video o un feed camera in diretta.
- Individua parti importanti del corpo: Il sistema cerca punti chiave sul corpo, come naso, gomiti, polsi, ginocchia e caviglie. Vengono contrassegnati ovunque il sistema sia sicuro che si trovi una parte del corpo.
- Capisce quali parti vanno insieme: Successivamente, OpenPose controlla come i keypoint sono collegati. Usa calcoli matematici per decidere quali articolazioni appartengono alla stessa persona, ad esempio, abbinando un polso al gomito e alla spalla corretti.
- Disegna uno scheletro per ogni persona: Dopo aver raggruppato i keypoint, OpenPose li collega in una "figura stilizzata" che mostra la posa di ogni persona. Questo funziona anche quando più persone appaiono nello stesso frame.
- Restituisce i dati della posa: Infine, fornisce le posizioni esatte di tutti i keypoint rilevati. Questi possono essere utilizzati per tracciare il movimento, riconoscere gesti o costruire strumenti interattivi, il tutto in tempo reale.

Fig 4. Rilevamento e tracciamento dei keypoint umani usando OpenPose.
Link to this sectionApplicazioni di stima della posa tra i settori usando OpenPose#
OpenPose è stato uno dei primi strumenti avanzati che ha reso la stima della posa pratica per una varietà di casi d'uso nel mondo reale. Sebbene oggi non sia comunemente usato in soluzioni di computer vision in tempo reale, ha svolto un ruolo importante nel plasmare il lavoro iniziale in campi come sport, intrattenimento, istruzione e sicurezza.
Diamo un'occhiata più da vicino a come ha contribuito ad aprire la strada in queste aree.
Link to this sectionStima della posa con OpenPose per fitness e sport#
Quando guardi il baseball, è facile capire cosa sta succedendo: puoi riconoscere istantaneamente un lancio, una battuta o una base rubata. Come esseri umani, leggiamo intuitivamente i movimenti del corpo e diamo loro un senso senza troppi sforzi. Ma per le macchine, riconoscere queste azioni è molto più complesso. Hanno bisogno di informazioni precise su come ogni parte del corpo si muove nello spazio.
OpenPose è stato un passo sostanziale in avanti in quest'area della computer vision. È stato uno strumento pratico per analizzare la forma atletica in una varietà di contesti.
Molti progetti di ricerca hanno utilizzato OpenPose per scomporre movimenti come swing e salti, classificando persino azioni specifiche di baseball in base a come si muovevano i giocatori. Poiché funzionava in ambienti aperti con video standard, ha permesso ai ricercatori di testare come tali sistemi potessero funzionare in scenari reali di allenamento o coaching.
Questi primi studi hanno contribuito a gettare le basi per gli strumenti di tracciamento delle prestazioni ora utilizzati nella tecnologia sportiva avanzata.

Fig 5. Uno sguardo a una pipeline di classificazione delle azioni di baseball usando OpenPose.
Link to this sectionUsare OpenPose in sistemi di sicurezza e protezione#
Allo stesso modo, i ricercatori hanno anche usato OpenPose per esplorare come il tracciamento della posa basato su video potesse supportare il monitoraggio della sicurezza. È stato testato nel rilevamento di comportamenti come cadute, gesti imprevisti o schemi di movimento in aree pubbliche.
Poiché funzionava con fotocamere standard, OpenPose ha reso la sperimentazione iniziale più accessibile in ambienti come ospedali e snodi di trasporto. Questi studi hanno contribuito a guidare lo sviluppo di modelli più recenti ora utilizzati nella sorveglianza, nel rilevamento delle cadute e nei sistemi di risposta alle emergenze.

Fig 6. Rilevamento cadute abilitato da OpenPose.
Link to this sectionPro e contro di OpenPose#
Ecco un'occhiata ad alcuni dei vantaggi offerti da OpenPose:
- Utile per ricerca e prototipazione: È stato ampiamente utilizzato nella ricerca accademica, specialmente in campi come l'interazione uomo-computer, la biomeccanica e l'analisi comportamentale.
- Supporto multipiattaforma: Può funzionare su Windows, Linux e macOS, con supporto sia per CPU (central processing units) che per GPU (graphics processing units).
- Capacità di elaborazione offline: Può funzionare in ambienti senza accesso a Internet, rendendolo ideale per contesti sensibili alla privacy come sanità o istruzione.
Sebbene OpenPose sia stato un passo avanti importante, ha anche limitazioni tecniche che è importante tenere a mente. Ecco alcune delle sfide chiave associate a OpenPose:
- Requisiti di elaborazione elevati: L'esecuzione di OpenPose in tempo reale richiede una GPU potente e risorse di calcolo significative.
- Sensibile all'ambiente: Le prestazioni possono diminuire in condizioni di scarsa illuminazione, spazi affollati o quando le angolazioni della fotocamera non sono ideali.
- Pesante rispetto ai modelli più recenti: Rispetto ai modelli di stima della posa più recenti, OpenPose è relativamente grande e più lento. Non è adatto all'implementazione su dispositivi dalle risorse limitate come smartphone, tablet o sistemi embedded.
Link to this sectionPunti chiave#
OpenPose ha svolto un ruolo importante nel rendere la stima della posa più accessibile. Ha dimostrato che il tracciamento dei movimenti del corpo poteva essere fatto con una semplice fotocamera, senza fare affidamento su tute o attrezzature specializzate.
Ha gettato le basi per molte applicazioni pratiche in sanità, istruzione, intrattenimento e ricerca. Sebbene i modelli più recenti offrano ora velocità maggiori e prestazioni più leggere, OpenPose rimane un punto di riferimento chiave per comprendere come si è evoluta la stima della posa.
Unisciti alla nostra community e visita il nostro repository GitHub per saperne di più sull'AI. Se stai cercando di costruire le tue soluzioni di computer vision, esplora le nostre opzioni di licenza. Inoltre, dai un'occhiata a come la computer vision nella sanità e l'AI nella logistica stanno avendo un impatto!






