Pose Estimation
Scopri come la stima della posa utilizza i keypoint per tracciare il movimento. Esplora le applicazioni del mondo reale e inizia con Ultralytics YOLO26 per risultati rapidi e precisi.
La stima della posa è una tecnica di computer vision specializzata che va oltre la semplice rilevazione della presenza di oggetti per comprendere la loro struttura geometrica e l'orientamento fisico. Mentre la normale object detection traccia un semplice riquadro attorno a un soggetto, la stima della posa identifica punti semantici specifici, noti come keypoints, come le articolazioni del corpo umano (gomiti, ginocchia, spalle) o gli angoli strutturali di un veicolo. Mappando questi punti di riferimento, i modelli di machine learning possono ricostruire una rappresentazione scheletrica del soggetto, consentendo ai sistemi di interpretare il linguaggio del corpo, le dinamiche di movimento e il posizionamento preciso nello spazio 2D o 3D.
Link to this sectionMeccanismi principali: Top-Down vs. Bottom-Up#
La moderna stima della posa si basa pesantemente su sofisticate architetture di deep learning, utilizzando spesso Convolutional Neural Networks (CNNs) per elaborare i dati visivi. Gli algoritmi seguono generalmente una delle due strategie primarie per identificare i keypoints:
- Approcci Top-Down: questo metodo impiega innanzitutto un modello di object detection per localizzare i singoli esemplari all'interno di bounding boxes. Una volta ritagliata la persona o l'oggetto dall'immagine più grande, l'estimatore della posa predice i keypoints all'interno di quella specifica regione. Questo approccio è spesso estremamente accurato, ma può risentire di una maggiore inference latency all'aumentare del numero di soggetti nell'inquadratura.
- Approcci Bottom-Up: al contrario, questa strategia rileva tutti i potenziali keypoints nell'intera immagine simultaneamente (ad esempio, trovando ogni "ginocchio sinistro" in una folla) e utilizza poi algoritmi di associazione per raggrupparli in singoli scheletri. Questo metodo è generalmente preferito per l'real-time inference in scene affollate, poiché il costo computazionale rimane relativamente costante indipendentemente dal numero di persone presenti.
I modelli allo stato dell'arte come YOLO26 utilizzano architetture end-to-end avanzate che bilanciano queste esigenze, fornendo una stima della posa ad alta velocità adatta all'implementazione su dispositivi edge AI e piattaforme mobili.
Link to this sectionDistinguere i termini correlati alla computer vision#
È utile differenziare la stima della posa da altri compiti di riconoscimento visivo per comprenderne il valore unico nei flussi di lavoro di computer vision:
- Object Detection: si concentra sull'identificare cosa e dove si trova un oggetto, restituendo un riquadro rettangolare. Tratta il soggetto come un oggetto rigido senza comprendere la sua articolazione interna.
- Instance Segmentation: genera una maschera pixel-perfect che delinea la forma precisa dell'oggetto. Sebbene la segmentazione fornisca i confini, non identifica esplicitamente le articolazioni o i collegamenti scheletrici necessari per la kinematic analysis.
- Pose Estimation: punta specificamente alla struttura interna, mappando le connessioni tra punti di riferimento predeterminati (ad esempio, dall'anca al ginocchio) per analizzare postura e azioni.
Link to this sectionApplicazioni nel mondo reale#
La capacità di digitalizzare il movimento umano e degli oggetti ha portato ad applicazioni trasformative in vari settori, spesso addestrate utilizzando strumenti come la Ultralytics Platform per gestire grandi dataset di keypoints annotati.
Link to this sectionSanità e riabilitazione#
In campo medico, l'AI in healthcare utilizza la stima della posa per monitorare la riabilitazione del paziente da remoto. Tracciando gli angoli delle articolazioni e l'ampiezza di movimento, i sistemi automatizzati possono garantire che i pazienti eseguano correttamente gli physical therapy exercises a casa. Ciò riduce il rischio di re-infortunio e consente ai clinici di quantificare i progressi del recupero senza bisogno di costose apparecchiature di laboratorio.
Link to this sectionAnalisi sportiva#
Allenatori e atleti sfruttano l'sports analytics per ottimizzare le prestazioni. I modelli di stima della posa possono analizzare il piano di swing di un golfista, la lunghezza della falcata di un corridore o la biomeccanica di un lanciatore senza la necessità di tute con marcatori intrusivi utilizzate nel tradizionale motion capture. Ciò fornisce un feedback immediato e basato sui dati per migliorare la tecnica e prevenire infortuni da uso eccessivo.
Link to this sectionVendita al dettaglio e analisi del comportamento#
In ambienti commerciali, i sistemi di AI in retail utilizzano il rilevamento della posa per comprendere il comportamento del cliente, come il protendersi verso i prodotti su scaffali alti o la sosta in corsie specifiche. Questi dati aiutano a ottimizzare la disposizione del negozio e a migliorare l'inventory management correlando le azioni fisiche con le decisioni di acquisto.
Link to this sectionEsempio di codice: Stima della posa con YOLO26#
Implementare la stima della posa è semplice con i moderni framework Python. L'esempio seguente mostra come utilizzare il pacchetto ultralytics per caricare un modello YOLO26 pre-addestrato (il successore di YOLO11) e rilevare i keypoints umani in un'immagine.
from ultralytics import YOLO
# Load the YOLO26 pose model (nano version for speed)
model = YOLO("yolo26n-pose.pt")
# Perform inference on an image source
# The model identifies bounding boxes and specific keypoints (joints)
results = model("https://ultralytics.com/images/bus.jpg")
# Print the xy coordinates of detected keypoints
print(results[0].keypoints.xy)
# Visualize the skeletal results directly
results[0].show()





