Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Scopri come Ultralytics migliora la stima della posa con un supporto migliore dei punti chiave non umani, una convergenza più rapida, una gestione migliorata dell'occlusione e un'implementazione efficiente in tempo reale.
Scala i tuoi progetti di visione artificiale con Ultralytics
Quando si osserva la postura di una persona, è facile notare se sta curvo, proteso in avanti o se sta dritto. Gli esseri umani sono in grado di comprendere rapidamente come le diverse parti del corpo sono collegate tra loro.
È una parte intrinseca del modo in cui interpretiamo il movimento e il linguaggio del corpo nella vita quotidiana. Per le macchine, tuttavia, questo tipo di comprensione visiva non è automatica. Insegnare a un sistema a riconoscere il movimento e la struttura richiede tecniche avanzate di deep learning e visione artificiale che gli consentano di interpretare le immagini in modo significativo.
In particolare, la stima della posa è una tecnica di visione artificiale che consente a un modello di visione artificiale di costruire una comprensione simile. Anziché limitarsi a rilevare un oggetto in un'immagine, il modello prevede i punti chiave che rappresentano importanti punti di riferimento strutturali.
Questi punti chiave potrebbero corrispondere alle articolazioni del corpo, agli arti degli animali, ai componenti dei macchinari o anche a punti fissi come gli angoli di un campo da gioco. Identificando e tracciando questi punti, il sistema è in grado di comprendere la posizione, l'allineamento e il movimento in modo strutturato e misurabile.
Poiché la stima della posa viene applicata a scenari sempre più realistici, i modelli devono gestire in modo più efficace punti chiave non umani, scene complesse e set di dati personalizzati. Ad esempio, modelli all'avanguardia come Ultralytics supportano attività di visione artificiale come la stima della posa e si basano sui precedenti modelli YOLO con miglioramenti architetturali e di formazione progettati per aumentare la flessibilità e le prestazioni complessive.
Fig. 1. Un esempio di stima della posa resa possibile da YOLO Fonte)
In questo articolo, confronteremo YOLO26-pose con i precedenti modelli Ultralytics YOLO e vedremo come migliora la flessibilità, la velocità di convergenza e le prestazioni in scene complesse. Cominciamo!
Cos'è la stima della posa?
Prima di addentrarci nel confronto tra Ultralytics YOLO , diamo un'occhiata più da vicino a cosa significa effettivamente la stima della posa nel contesto della visione artificiale.
La stima della posa è una tecnica utilizzata per detect track punti chiave track in un'immagine o in un fotogramma video. Questi punti chiave possono rappresentare importanti punti di riferimento strutturali, come le articolazioni del corpo umano, gli arti di un animale, i componenti di una macchina o punti di riferimento fissi in una scena.
Fig. 2. Stima della postura dei lavoratori utilizzando la stima della postura umana (Fonte)
Identificando le coordinate di questi punti, un modello può comprendere come è posizionato un oggetto e come si muove nel tempo. A differenza della classificazione delle immagini, che assegna un'unica etichetta all'intera immagine, o dei modelli di rilevamento degli oggetti, che si concentrano sul disegno di riquadri di delimitazione attorno agli oggetti, la stima della posa fornisce informazioni spaziali più dettagliate sulla struttura e sul movimento.
Panoramica di YOLO26-pose
YOLO26-pose è disponibile in diverse varianti o dimensioni di modello, comprese opzioni leggere come YOLO26n-pose e modelli più grandi come YOLO26m-pose, YOLO26l-pose e YOLO26x-pose. Ciò consente ai team di scegliere il giusto equilibrio tra velocità e precisione in base alle proprie esigenze hardware e prestazionali.
Ultralytics fornisce Ultralytics modelli di posa preaddestrati su grandi set di dati generici come il COCO , in particolare le annotazioni COCO(COCO ) per la stima della posa umana, in modo da non dover partire da zero. Nella maggior parte dei casi, i team ottimizzano questi modelli sul proprio set di dati per adattarli a punti chiave, layout o ambienti specifici.
Ciò comporta in genere la preparazione di file di annotazione personalizzati che definiscono le coordinate dei punti chiave e le etichette di classe in un formato strutturato. Queste annotazioni mappano i punti chiave su coordinate pixel specifiche all'interno di ciascuna immagine, consentendo al modello di apprendere relazioni spaziali precise durante l'addestramento.
L'utilizzo di modelli preaddestrati velocizza l'addestramento, riduce i requisiti di dati e contribuisce a portare i progetti in produzione in modo più efficiente.
Applicazioni reali della stima della postura umana
Ecco alcuni esempi di casi reali in cui la stima della posa gioca un ruolo importante:
Assistenza sanitaria e riabilitazione: i medici possono utilizzare modelli di posa per valutare la postura, monitorare i progressi del recupero e analizzare i modelli di movimento durante la terapia fisica.
Sistemi autonomi: i droni e le telecamere intelligenti possono utilizzare le informazioni sulla posizione per comprendere meglio l'orientamento e il movimento degli oggetti in scene dinamiche.
Sicurezza sul posto di lavoro: le organizzazioni possono monitorare la posizione del corpo e i movimenti ripetitivi per aiutare a identificare potenziali rischi per la sicurezza.
Fitness e personal training:le app di fitness utilizzano la stima della postura per track la forma track , contare le ripetizioni e fornire feedback in tempo reale sulla postura e sui movimenti mantenuti durante le lezioni di fitness.
Fig. 3. La stima della postura può aiutare track i punti track del corpo durante i movimenti atletici. (Fonte)
Esplorazione del supporto Ultralytics per la stima della posa
Ultralytics si basa sui precedentiYOLO Ultralytics YOLO con aggiornamenti progettati per rendere la formazione e l'implementazione più pratiche.
Come le versioni precedenti, supporta la stima della posa come parte di un framework unificato. La differenza principale è che YOLO26 è stato progettato per essere più flessibile e stabile in una gamma più ampia di casi d'uso reali.
I precedenti modelliYOLO Ultralytics erano fortemente influenzati dai set di dati relativi alle pose umane, il che significava che parte dei metodi precedenti era ottimizzata in base alle strutture articolari umane. YOLO26 elimina tali presupposti specifici relativi all'uomo.
Di conseguenza, è più adatto per punti chiave non umani, come il rilevamento degli angoli di un campo da tennis o altri punti di riferimento strutturali personalizzati. Questo è significativo perché i modelli YOLO26-pose pre-addestrati e pronti all'uso sono addestrati su set di dati come COCO e prevedono i punti chiave umani definiti nelle annotazioni del set di dati.
Tuttavia, quando i team desiderano detect tipi di punti di riferimento, come componenti di macchinari, indicatori di campi sportivi o punti infrastrutturali, il modello deve in genere essere ottimizzato su un set di dati personalizzato in cui tali punti chiave specifici sono annotati.
Poiché YOLO26 non è vincolato da ipotesi sulle strutture articolari umane, è in grado di adattarsi in modo più efficace durante la messa a punto. Questa flessibilità consente al modello di apprendere in modo più affidabile le disposizioni personalizzate dei punti chiave, il che porta a metriche di valutazione migliorate durante la convalida su set di dati con configurazioni di punti chiave uniche.
YOLO26-pose è inoltre progettato per migliorare la localizzazione dei punti chiave quando parti di un oggetto sono parzialmente nascoste o appaiono in scala molto ridotta. In scene reali che coinvolgono soggetti distanti, riprese con droni o scenari con oggetti di piccole dimensioni, ciò può portare a previsioni dei punti chiave più accurate rispetto ai modelli di posa precedenti.
Un altro importante aggiornamento è il miglioramento della formulazione della perdita utilizzata durante l'addestramento. La funzione di perdita determina il modo in cui il modello corregge i propri errori durante l'apprendimento.
Quando si tratta di YOLO26-pose, questo processo è più efficace, poiché aiuta il modello ad apprendere più rapidamente e a raggiungere un'elevata precisione in un numero inferiore di epoche, dove per epoca si intende un passaggio completo attraverso il set di dati di addestramento.
Nel complesso, YOLO26-pose si basa sui precedenti modelli Ultralytics YOLO con miglioramenti più evidenti nel supporto dei punti chiave non umani e nella convergenza dell'addestramento, pur mantenendo lo stesso flusso di lavoro familiare.
Confronto tra YOLO26-pose e Ultralytics YOLOv5
La prima versioneYOLO di Ultralytics , Ultralytics YOLOv5, è stata creata principalmente per il rilevamento di oggetti. Sebbene YOLOv5 sia stato YOLOv5 ampliato per supportare la segmentazione delle istanze, non include un'unità di stima della posa nativa e specializzata all'interno del Ultralytics ufficiale Ultralytics .
I team che necessitavano del rilevamento dei punti chiave si affidavano in genere a implementazioni separate o modifiche personalizzate. Ultralytics include la stima della posa come attività integrata, con un'architettura dedicata progettata specificamente per la previsione dei punti chiave.
Ciò significa che i modelli YOLO26-pose possono essere addestrati, convalidati e implementati all'interno dello stesso flusso di lavoro unificato utilizzato per il rilevamento e la segmentazione. Per i progetti incentrati sul rilevamento strutturato dei punti chiave, YOLO26 fornisce un supporto nativo per le pose e un'architettura specifica per le attività che YOLOv5 offre immediatamente.
Differenze principali: YOLO26-pose vs Ultralytics YOLOv8
Ultralytics YOLOv8 ha introdotto la stima della posa nativa all'interno del Ultralytics unificato Ultralytics , semplificando l'addestramento e l'implementazione dei modelli keypoint utilizzando lo stesso flusso di lavoro della rilevazione e della segmentazione. Si basa su una pipeline di post-elaborazione tradizionale con soppressione non massima (NMS) e utilizza formulazioni di perdita precedenti per la regressione e l'addestramento dei bounding box.
YOLO26 si basa su queste fondamenta con aggiornamenti architetturali e di addestramento che hanno un impatto diretto sulla stima della posa. Una differenza importante è il design end-to-end. YOLO26 elimina la necessità di NMS esterni NMS l'inferenza, semplificando l'implementazione e migliorando la coerenza della latenza, in particolare su CPU e dispositivi edge.
Un altro miglioramento fondamentale riguarda la metodologia di addestramento. YOLO26 introduce l'ottimizzatore MuSGD insieme a strategie di perdita aggiornate. Per le attività di posizionamento, integra la stima della log-verosimiglianza residua, che migliora la modellizzazione dell'incertezza dei punti chiave. Insieme, queste modifiche possono portare a una convergenza più rapida e a previsioni dei punti chiave più stabili, in particolare in scene complesse o parzialmente occluse.
In breve, YOLOv8 ha stabilito una base solida e versatile. YOLO26-pose perfeziona tale base con una maggiore efficienza di addestramento, una migliore gestione dell'occlusione e una maggiore flessibilità per applicazioni reali non umane.
YOLO26-Pose vs Ultralytics YOLO11: cosa è stato migliorato?
Ultralytics YOLO11 si basa su Ultralytics YOLOv8 la struttura portante e i livelli di estrazione delle caratteristiche. Ha ridotto i FLOP, migliorato l'efficienza dei parametri e fornito mAP più elevato, mantenendo mAP elevate prestazioni in tempo reale. Per le attività di posizionamento, ciò ha significato una maggiore precisione dei punti chiave con un'architettura più leggera.
YOLO26-pose continua questa evoluzione con un cambiamento architettonico più radicale. In parole povere, YOLO11 l'efficienza e la precisione di YOLOv8, mentre YOLO26 si basa su queste fondamenta con aggiornamenti architettonici e di addestramento volti a una convergenza più rapida, un'inferenza più stabile e una maggiore precisione delle pose in scenari complessi.
Perché dovresti iniziare a utilizzare il modello YOLO26 per la stima della posa?
Mentre esplori le differenze traYOLO Ultralytics , potresti chiederti se passare a YOLO26-pose.
La risposta breve è che si tratta di un aggiornamento semplice. Se stai già utilizzando Ultralytics YOLOv8 o Ultralytics YOLO11, passare a YOLO26-pose significa semplicemente cambiare la versione del modello, senza dover ricostruire la tua pipeline.
È possibile beneficiare di un supporto migliore per i punti chiave non umani, una convergenza più rapida durante l'addestramento e una gestione migliorata dei punti occlusi, il tutto rimanendo nello stesso Ultralytics . Per la maggior parte dei progetti di posa nuovi ed esistenti, il passaggio a YOLO26-pose è un modo semplice per ottenere questi miglioramenti con il minimo sforzo.
Inoltre, YOLO26-pose è completamente supportato dal Python Ultralytics , basato su PyTorch semplifica l'addestramento, la convalida e l'implementazione. I modelli possono essere esportati in formati quali ONNX, TensorRT, OpenVINO, CoreML e TFLite, facilitando l'implementazione su GPU, CPU e dispositivi edge senza modificare il flusso di lavoro complessivo.
Punti chiave
Ultralytics rende la stima della posa più flessibile e affidabile, soprattutto quando si lavora con punti chiave non umani o scene complesse. Si allena più velocemente, gestisce meglio l'occlusione e offre risultati più coerenti su diversi set di dati. Per i team che già utilizzano i modelliYOLO Ultralytics YOLO , YOLO26 offre chiari miglioramenti senza modificare i flussi di lavoro esistenti.