Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Stima della posa

Scoprite la stima della posa: come funzionano i modelli di keypoint (top-down vs bottom-up), gli usi reali, dalla sanità allo sport, oltre ai principali vantaggi e sfide.

La stima della posa è un'attività di computer vision (CV) che va oltre il individuare gli oggetti per identificarne la geometria e l'orientamento specifici. Individuando le coordinate dei punti di riferimento punti di riferimento strutturali - noti come punti chiave - questatecnologia crea una rappresentazione scheletrica di un soggetto. Negli esseri umani, questi punti chiave corrispondono in genere alle articolazioni principali, come spalle, gomiti, fianchi e ginocchia, gomiti, fianchi e ginocchia. Questa capacità consente ai modelli di apprendimento automatico (ML) di interpretare il linguaggio del corpo linguaggio del corpo, l'attività e la postura, colmando il divario tra il semplice rilevamento dei pixel e la comprensione di comportamenti fisici complessi. comportamenti fisici complessi.

Meccanismi e approcci fondamentali

La moderna stima della posa si basa molto sulle architetture di architetture di apprendimento profondo (DL), in particolare reti neurali convoluzionali (CNN) e, sempre più spesso, ai trasformatori. Il processo si articola generalmente in due metodologie principali:

  • Approccio top-down: Questo metodo impiega innanzitutto un modello di modello di rilevamento degli oggetti per individuare le singole istanze (ad esempio, gli esseri umani) all'interno di un rettangolo di selezione. Una volta ritagliato, il sistema stima i punti chiave per quella singola persona. Questo metodo è spesso più accurato ma computazionalmente computazionalmente costoso all'aumentare del numero di persone.
  • Approccio bottom-up: In alternativa, il modello rileva tutti i potenziali punti chiave dell'intera immagine (ad esempio, ogni gomito sinistro) e li associa per formare scheletri distinti. (ad esempio, ogni gomito sinistro) e poi li associa per formare scheletri distinti. Questo metodo è spesso preferito per in tempo reale in scene affollate, in quanto il tempo di elaborazione tempo di elaborazione è meno dipendente dal numero di soggetti.

Per le applicazioni ad alte prestazioni, modelli come Ultralytics YOLO11 integrano questi concetti per fornire una rapida stima della posa adatta ai dispositivi edge.

Distinguere i concetti correlati

È fondamentale differenziare la stima della posa da compiti di visione simili:

  • Rispetto al rilevamento di oggetti: Mentre il rilevamento degli oggetti identifica dove si trova un oggetto e cosa sia (etichetta di classe), tratta l'oggetto come una scatola rigida. La stima della posa rivela la struttura interna struttura interna e l'articolazione all'interno di tale scatola.
  • Rispetto alla segmentazione delle istanze: La segmentazione delle istanze fornisce una maschera perfetta al pixel della forma di un oggetto. Pur delineando i confini, non identifica esplicitamente le articolazioni o i collegamenti scheletrici, necessari per l'analisi della dinamica del movimento o della scheletriche, necessarie per l'analisi della dinamica del movimento o della cinematica. cinematica.

Applicazioni nel mondo reale

L'utilità della stima della posa si estende a diversi settori in cui l'analisi del movimento è fondamentale.

Assistenza sanitaria e riabilitazione

Nel campo dell'intelligenza artificiale in ambito sanitario, la stima della posa aiuta nella terapia fisica, tracciando automaticamente i movimenti del paziente. I sistemi possono misurare l'angolo delle articolazioni durante gli esercizi di riabilitazione per garantire che i pazienti mantengano una forma corretta, riducendo il rischio di nuove lesioni. Questo permette monitoraggio a distanza e i progressi della teleassistenza, rendendo più accessibile un'assistenza di qualità.

Analisi dello sport e biomeccanica

Allenatori e atleti utilizzano l'analisi sportiva per analizzare le prestazioni. Estraendo i dati dati biomeccanici da filmati video, l'intelligenza artificiale può analizzare il piano di swing di un golfista o l'efficienza dell'andatura di un corridore, senza la necessità di utilizzare le invadenti tute di marker invasivi, come quelli usati per la cattura del movimento tradizionale.

Esempio di codice: Stima della posa con YOLO11

Il seguente Python mostra come caricare un modello YOLO11 pre-addestrato e come eseguire la stima della posa su un'immagine. ed eseguire la stima della posa su un'immagine. Questa operazione richiede il ultralytics e visualizza il risultato scheletrico.

from ultralytics import YOLO

# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")

# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")

# Visualize the detected keypoints and skeleton
results[0].show()

Sfide e dati

L'addestramento di modelli di posa robusti richiede dataset massicci annotati. I benchmark standard come il set di datiCOCO Pose forniscono migliaia di figure umane etichettate. Tuttavia, persistono problemi come l'occlusione (quando le parti del corpo sono nascoste) e l'auto-occlusione (quando una persona blocca i propri arti). nascoste) e l'auto-occlusione (quando una persona blocca i propri arti). Per risolvere questi problemi sono necessarie tecniche avanzate di aumento dei dati e dati di dati di addestramento che coprono varie angolazioni e condizioni di illuminazione.

Inoltre, l'implementazione di questi modelli su dispositivi AI edge richiede un'attenta ottimizzazione, come la quantizzazione del modello, per mantenere un'elevata precisione senza sacrificare la velocità.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora