Che cos'è OpenPose? Le basi della stima della posa

Oggigiorno, immagini e telecamere sono ovunque: integrate nei nostri telefoni, nelle nostre case e persino negli spazi pubblici. Ci affidiamo a loro non solo per catturare momenti, ma anche per aiutarci a comprendere e interagire con il mondo che ci circonda.

Dietro le quinte, la computer vision, un sottocampo dell'intelligenza artificiale (AI), rende possibile tutto ciò consentendo alle macchine di interpretare i dati visivi. Consente ai sistemi di detect gli oggetti, riconoscere i volti e track movimenti, svolgendo un ruolo chiave in molte delle tecnologie che utilizziamo quotidianamente.

Grazie ai recenti progressi nell'IA, i modelli di computer vision possono ora analizzare ed estrarre dati e informazioni più complesse. Un esempio è la stima della posa, un'attività di computer vision incentrata sulla comprensione del movimento umano.

Funziona identificando i punti chiave del corpo, come spalle, gomiti e ginocchia, in immagini o video. Ciò rende possibile l'analisi del modo in cui le persone si muovono, consentendo applicazioni nel monitoraggio della forma fisica, nell'animazione, nella sanità e altro ancora.

Tra i numerosi strumenti sviluppati per la stima della posa, OpenPose si distingue come una svolta importante. Creato dai ricercatori del Perceptual Computing Lab della Carnegie Mellon University, è stato uno dei primi sistemi open-source in grado di rilevare pose complete del corpo, comprese mani, piedi e punti chiave del viso, per più persone in tempo reale utilizzando solo una telecamera (con un massimo di 135 punti chiave per persona).

In questo articolo esploreremo OpenPose, come funziona e il suo significato come pietra miliare nella computer vision.

Fig. 1. Stima della posa multi-persona utilizzando OpenPose.

‍

Uno sguardo alla storia della stima della posa

Prima che l'IA fosse ampiamente adottata, il tracciamento del movimento umano nei video richiedeva l'uso di attrezzature specializzate. In settori come il cinema e l'animazione, gli attori spesso indossavano tute con marcatori riflettenti in modo che le telecamere potessero catturare i loro movimenti in un ambiente di studio controllato.

Sebbene queste tecniche di cattura del movimento basate su marcatori fossero accurate, erano anche costose e limitate a configurazioni specifiche. Con il progredire della computer vision, i ricercatori hanno cercato un modo per track movimento del corpo senza utilizzare i marcatori. Hanno utilizzato bordi, contorni e modelli per individuare le forme umane nelle immagini.

Questi primi sistemi funzionavano in istanze semplici e dirette, ma avevano difficoltà con scenari del mondo reale. Spesso davano risultati scadenti quando le persone si muovevano in modi inaspettati o quando più di una persona appariva in un fotogramma.

Alla fine degli anni 2010, il deep learning ha portato un importante cambiamento nella stima della posa. I modelli di Vision AI potevano essere addestrati su grandi set di dati di pose umane. Invece di fare affidamento su bordi e modelli, i modelli hanno imparato a riconoscere le articolazioni e la struttura del corpo studiando migliaia di immagini etichettate. Ciò ha reso la stima della posa più accurata, flessibile e di impatto in una gamma più ampia di contesti.

Fig. 2. L'evoluzione dei modelli di stima della posa umana dal 2017 al 2023.

‍

OpenPose: dove è decollata la moderna stima della posa

OpenPose è stato rilasciato per la prima volta nel 2017 ed è in grado di stimare le pose di più persone contemporaneamente in una singola immagine. A differenza dei sistemi precedenti, OpenPose non richiede tute o marcatori speciali. Funziona con telecamere standard e può elaborare immagini e video in tempo reale. Queste caratteristiche hanno reso la stima della posa più accessibile a sviluppatori e ricercatori.

Le basi gettate da OpenPose per la computer vision hanno aiutato altri a costruire nuove architetture per una varietà di altre applicazioni. Oggi, modelli di Vision AI come Ultralytics YOLO8 e Ultralytics YOLO11 che supportano le attività di stima della posa, offrono risultati più rapidi e una minore latenza.

Figura 3. Utilizzo di YOLO11 per la stima della posa.

‍

Tuttavia, OpenPose è un ottimo punto di partenza se sei curioso di sapere come si è evoluta la stima della posa. Ha introdotto idee chiave su cui molti sistemi più recenti fanno ancora affidamento oggi.

Funzionalità chiave di OpenPose

Ora che abbiamo una migliore comprensione del perché OpenPose è importante, diamo un'occhiata più da vicino a cosa può effettivamente fare.

Il cuore delle funzionalità di OpenPose è il rilevamento dei punti chiave. I punti chiave sono punti di riferimento specifici del corpo umano, come la punta del naso, il centro delle spalle, i gomiti, i polsi, le anche, le ginocchia e le caviglie. OpenPose può detect fino a 135 di questi punti per persona, comprese aree dettagliate come le dita e i tratti del viso.

Quando questi punti sono collegati, formano una rappresentazione semplificata del corpo umano: si può pensare a uno scheletro digitale. Questo schema scheletrico mostra non solo dove si trova una persona, ma anche la sua postura: se è seduta, in piedi, se saluta, sorride o cammina. I computer possono interpretare visivamente il movimento umano utilizzando questi scheletri, proprio come noi comprendiamo istintivamente il linguaggio del corpo di qualcuno.

Il tracciamento scheletrico è particolarmente utile perché elimina il rumore di fondo e le distrazioni, consentendo al sistema di concentrarsi esclusivamente sulla postura e sul movimento umano. Invece di analizzare ogni pixel, OpenPose si concentra su punti significativi che raccontano la storia di come una persona si muove o interagisce.

Estraendo queste informazioni strutturate da immagini o video di tutti i giorni, OpenPose consente di creare applicazioni che rispondono ai gesti, monitorano l'attività fisica, valutano i segnali emotivi o persino animano personaggi digitali.

Come funziona OpenPose?

Ecco una panoramica di come OpenPose rileva e connette i keypoint sul corpo umano a partire da input visivi:

Inizia con un'immagine: OpenPose prende una singola immagine da una foto, un video o un feed di telecamera live.
‍
Individua parti importanti del corpo: Il sistema cerca punti chiave sul corpo, come naso, gomiti, polsi, ginocchia e caviglie. Vengono contrassegnati ovunque il sistema sia sicuro che si trovi una parte del corpo.
‍
Individua quali parti combaciano: Successivamente, OpenPose verifica come sono collegati i keypoint. Utilizza calcoli matematici per decidere quali giunti appartengono alla stessa persona, ad esempio, abbinando un polso al gomito e alla spalla destra.
‍
Disegna uno scheletro per ogni persona: Dopo aver raggruppato i keypoint, OpenPose li collega in una "figura stilizzata" che mostra la posa di ogni persona. Questo funziona anche quando più persone appaiono nella stessa inquadratura.
‍
Restituisce i dati sulla posa: Infine, fornisce le posizioni esatte di tutti i keypoint rilevati. Questi possono essere utilizzati per tracciare il movimento, riconoscere i gesti o creare strumenti interattivi, tutto in tempo reale.

Fig. 4. Rilevamento e tracciamento dei punti chiave umani tramite OpenPose.

‍

Applicazioni di stima della posa in vari settori utilizzando OpenPose

OpenPose è stato uno dei primi strumenti avanzati che ha reso la stima della posa pratica per una varietà di casi d'uso reali. Sebbene non sia comunemente utilizzato nelle soluzioni di computer vision in tempo reale odierne, ha svolto un ruolo importante nel plasmare i primi lavori in settori come sport, intrattenimento, istruzione e sicurezza.

Diamo uno sguardo più da vicino a come ha contribuito a spianare la strada in queste aree.

Stima della posa con OpenPose per fitness e sport

Quando si guarda il baseball, è facile capire cosa sta succedendo: si può riconoscere immediatamente un lancio, un'oscillazione o una base rubata. Come esseri umani, leggiamo intuitivamente i movimenti del corpo e li comprendiamo senza troppi sforzi. Ma per le macchine, riconoscere queste azioni è molto più complesso. Hanno bisogno di informazioni precise su come ogni parte del corpo si muove nello spazio.

OpenPose è stato un passo avanti significativo in questo settore della computer vision. Era uno strumento pratico per analizzare la forma atletica in una varietà di contesti.

Molti progetti di ricerca hanno utilizzato OpenPose per analizzare movimenti come swing e salti, classificando persino specifiche azioni del baseball in base al modo in cui i giocatori si muovevano. Poiché funzionava in ambienti aperti con video standard, ha permesso ai ricercatori di testare come tali sistemi potrebbero funzionare in scenari di allenamento o coaching nel mondo reale.

Questi primi studi hanno contribuito a gettare le basi per gli strumenti di monitoraggio delle prestazioni ora utilizzati nella tecnologia sportiva avanzata.

Fig. 5. Uno sguardo a una pipeline di classificazione delle azioni nel baseball tramite OpenPose.

‍

Utilizzo di OpenPose nei sistemi di sicurezza

Allo stesso modo, i ricercatori hanno anche utilizzato OpenPose per esplorare come il tracciamento della posa basato su video potrebbe supportare il monitoraggio della sicurezza. È stato testato nel rilevamento di comportamenti come cadute, gesti inaspettati o modelli di movimento in aree pubbliche.

Grazie alla sua compatibilità con le telecamere standard, OpenPose ha reso più accessibile la sperimentazione iniziale in ambienti come ospedali e snodi dei trasporti. Questi studi hanno contribuito a guidare lo sviluppo di modelli più recenti ora utilizzati nei sistemi di sorveglianza, rilevamento di cadute e risposta alle emergenze.

Fig. 6. Rilevamento di cadute abilitato da OpenPose.

‍

Pro e contro di OpenPose

Ecco un assaggio di alcuni dei vantaggi offerti da OpenPose:

Utile per la ricerca e la prototipazione: È stato ampiamente utilizzato nella ricerca accademica, specialmente in campi come l'interazione uomo-computer, la biomeccanica e l'analisi comportamentale.
‍
Supporto multipiattaforma: Può essere eseguito su Windows, Linux e macOS, con supporto sia per le unità di elaborazione centrali (CPU) che per le unità di elaborazione grafica (GPU).
‍
Capacità di elaborazione offline: Può essere eseguito in ambienti senza accesso a Internet, rendendolo ideale per impostazioni sensibili alla privacy come l'assistenza sanitaria o l'istruzione.

Sebbene OpenPose sia stato un importante passo avanti, presenta anche limitazioni tecniche che è importante tenere a mente. Ecco alcune delle principali sfide associate a OpenPose:

Requisiti di elaborazione elevati: L'esecuzione di OpenPose in tempo reale richiede una GPU potente e risorse di calcolo significative.
‍
Sensibile all'ambiente: Le prestazioni possono diminuire in condizioni di scarsa illuminazione, in spazi affollati o quando gli angoli di ripresa non sono ideali.
‍
Pesante rispetto ai modelli più recenti: Rispetto ai modelli di stima della posa più recenti, OpenPose è relativamente grande e più lento. Non è adatto per la distribuzione su dispositivi con risorse limitate come smartphone, tablet o sistemi embedded.

Punti chiave

OpenPose ha giocato un ruolo importante nel rendere la stima della posa più accessibile. Ha dimostrato che il tracciamento dei movimenti del corpo poteva essere eseguito con una semplice telecamera, senza fare affidamento su tute o attrezzature specializzate.

Ha gettato le basi per molte applicazioni pratiche in ambito sanitario, istruzione, intrattenimento e ricerca. Sebbene i modelli più recenti offrano ora velocità superiori e prestazioni più leggere, OpenPose rimane un punto di riferimento fondamentale per comprendere l'evoluzione della stima della posa.

Unisciti alla nostra community e visita il nostro repository GitHub per saperne di più sull'AI. Se stai cercando di creare le tue soluzioni di computer vision, esplora le nostre opzioni di licenza. Inoltre, scopri come la computer vision nel settore sanitario e l'AI nella logistica stanno avendo un impatto!

Cos'è OpenPose? Esplorando una pietra miliare nella stima della posa

Uno sguardo alla storia della stima della posa

OpenPose: dove è decollata la moderna stima della posa

Funzionalità chiave di OpenPose

Come funziona OpenPose?

Applicazioni di stima della posa in vari settori utilizzando OpenPose

Stima della posa con OpenPose per fitness e sport

Utilizzo di OpenPose nei sistemi di sicurezza

Pro e contro di OpenPose

Punti chiave

Leggi di più in questa categoria

Apprendimento auto-supervisionato per il denoising: un'analisi dettagliata passo dopo passo

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Un'introduzione al campo emergente dell'IA neuro-simbolica

Costruiamo insieme il futuro
dell'AI!

Cos'è OpenPose? Esplorando una pietra miliare nella stima della posa

Uno sguardo alla storia della stima della posa

OpenPose: dove è decollata la moderna stima della posa

Funzionalità chiave di OpenPose

Come funziona OpenPose?

Applicazioni di stima della posa in vari settori utilizzando OpenPose

Stima della posa con OpenPose per fitness e sport

Utilizzo di OpenPose nei sistemi di sicurezza

Pro e contro di OpenPose

Punti chiave

Leggi di più in questa categoria

Apprendimento auto-supervisionato per il denoising: un'analisi dettagliata passo dopo passo

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Un'introduzione al campo emergente dell'IA neuro-simbolica

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!