Scoprite la stima della posa: come funzionano i modelli di keypoint (top-down vs bottom-up), gli usi reali, dalla sanità allo sport, oltre ai principali vantaggi e sfide.
La stima della posa è un'attività di computer vision (CV) che va oltre il individuare gli oggetti per identificarne la geometria e l'orientamento specifici. Individuando le coordinate dei punti di riferimento punti di riferimento strutturali - noti come punti chiave - questatecnologia crea una rappresentazione scheletrica di un soggetto. Negli esseri umani, questi punti chiave corrispondono in genere alle articolazioni principali, come spalle, gomiti, fianchi e ginocchia, gomiti, fianchi e ginocchia. Questa capacità consente ai modelli di apprendimento automatico (ML) di interpretare il linguaggio del corpo linguaggio del corpo, l'attività e la postura, colmando il divario tra il semplice rilevamento dei pixel e la comprensione di comportamenti fisici complessi. comportamenti fisici complessi.
La moderna stima della posa si basa molto sulle architetture di architetture di apprendimento profondo (DL), in particolare reti neurali convoluzionali (CNN) e, sempre più spesso, ai trasformatori. Il processo si articola generalmente in due metodologie principali:
Per le applicazioni ad alte prestazioni, modelli come Ultralytics YOLO11 integrano questi concetti per fornire una rapida stima della posa adatta ai dispositivi edge.
È fondamentale differenziare la stima della posa da compiti di visione simili:
L'utilità della stima della posa si estende a diversi settori in cui l'analisi del movimento è fondamentale.
Nel campo dell'intelligenza artificiale in ambito sanitario, la stima della posa aiuta nella terapia fisica, tracciando automaticamente i movimenti del paziente. I sistemi possono misurare l'angolo delle articolazioni durante gli esercizi di riabilitazione per garantire che i pazienti mantengano una forma corretta, riducendo il rischio di nuove lesioni. Questo permette monitoraggio a distanza e i progressi della teleassistenza, rendendo più accessibile un'assistenza di qualità.
Allenatori e atleti utilizzano l'analisi sportiva per analizzare le prestazioni. Estraendo i dati dati biomeccanici da filmati video, l'intelligenza artificiale può analizzare il piano di swing di un golfista o l'efficienza dell'andatura di un corridore, senza la necessità di utilizzare le invadenti tute di marker invasivi, come quelli usati per la cattura del movimento tradizionale.
Il seguente Python mostra come caricare un modello YOLO11 pre-addestrato e come eseguire la stima della posa su un'immagine.
ed eseguire la stima della posa su un'immagine. Questa operazione richiede il ultralytics e visualizza il risultato
scheletrico.
from ultralytics import YOLO
# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")
# Visualize the detected keypoints and skeleton
results[0].show()
L'addestramento di modelli di posa robusti richiede dataset massicci annotati. I benchmark standard come il set di datiCOCO Pose forniscono migliaia di figure umane etichettate. Tuttavia, persistono problemi come l'occlusione (quando le parti del corpo sono nascoste) e l'auto-occlusione (quando una persona blocca i propri arti). nascoste) e l'auto-occlusione (quando una persona blocca i propri arti). Per risolvere questi problemi sono necessarie tecniche avanzate di aumento dei dati e dati di dati di addestramento che coprono varie angolazioni e condizioni di illuminazione.
Inoltre, l'implementazione di questi modelli su dispositivi AI edge richiede un'attenta ottimizzazione, come la quantizzazione del modello, per mantenere un'elevata precisione senza sacrificare la velocità.