Keypoints
Impara come i keypoint definiscono la geometria e la postura degli oggetti nell'IA. Esplora la stima della posa con Ultralytics YOLO26 e inizia a usare il nostro Python SDK facile da usare.
I keypoint sono posizioni spaziali o punti di riferimento distinti all'interno di un'immagine che definiscono caratteristiche significative di un oggetto o di un soggetto. Nel contesto della computer vision e del machine learning, un keypoint è solitamente rappresentato da un insieme di coordinate (X, Y) che individuano una parte specifica di un oggetto, come il gomito di una persona, l'angolo di un edificio o il centro della ruota di un'auto. A differenza di compiti più semplici che identificano solo la presenza di un oggetto, identificare i keypoint consente ai modelli di intelligenza artificiale (AI) di comprendere la geometria, la postura e la disposizione strutturale del soggetto. Questa capacità è fondamentale per l'analisi visiva avanzata, consentendo alle macchine di interpretare il linguaggio del corpo, tracciare movimenti precisi e allineare sovrapposizioni digitali con oggetti del mondo reale.
Link to this sectionIl ruolo dei keypoint nei modelli AI#
I keypoint fungono da dati fondamentali per la pose estimation, una tecnica che mappa la struttura scheletrica di un essere umano o di un animale. Rilevando un insieme predefinito di punti — come spalle, ginocchia e caviglie — gli algoritmi possono ricostruire la posa completa di un soggetto in tempo reale. Questo processo va oltre la classica object detection, che solitamente restituisce un bounding box attorno a un oggetto senza comprenderne la forma interna.
Le architetture moderne, come l'avanzato Ultralytics YOLO26, si sono evolute per prevedere questi keypoint con elevata precisione e velocità. Questi modelli utilizzano reti di deep learning (DL) addestrate su enormi dataset annotati, come COCO Keypoints, per apprendere i pattern visivi associati alle articolazioni e ai tratti del volto. Durante l'inferenza, il modello esegue una regressione delle coordinate per ogni keypoint, spesso includendo un punteggio di confidenza per indicare l'affidabilità della previsione.
Link to this sectionKeypoint vs. concetti correlati#
È utile distinguere i keypoint da altri output comuni di computer vision per comprenderne l'utilità specifica:
- Keypoint vs. Bounding Box: Un bounding box fornisce una localizzazione approssimativa, racchiudendo l'intero oggetto in un rettangolo. I keypoint forniscono una localizzazione precisa di parti specifiche all'interno di tale oggetto.
- Keypoint vs. Image Segmentation: L'image segmentation classifica ogni pixel per creare una maschera precisa della forma dell'oggetto. Mentre la segmentazione offre informazioni dettagliate sui confini, i keypoint offrono un riassunto strutturale (uno "scheletro"), spesso più efficiente per analizzare il movimento e la cinematica.
- Keypoint vs. Feature Descriptor: Nell'elaborazione tradizionale delle immagini come SIFT (Scale-Invariant Feature Transform), i keypoint sono punti di interesse (angoli, blob) utilizzati per il matching di immagini. Nella moderna DL pose estimation, i keypoint sono etichette semantiche (es. "polso sinistro") apprese dalla rete.
Link to this sectionApplicazioni nel mondo reale#
La capacità di tracciare parti specifiche del corpo o caratteristiche di oggetti sblocca diverse applicazioni in vari settori:
- Analisi sportiva: Allenatori e atleti utilizzano la pose estimation per analizzare la biomeccanica. Tracciando i keypoint sulle articolazioni, i sistemi possono calcolare angoli e velocità per migliorare la tecnica in sport come il golf, il tennis o la corsa. Scopri come i modelli Ultralytics YOLO tracciano gli swing nel golf per fornire feedback utilizzabili.
- Sanità e riabilitazione: Le piattaforme di fisioterapia sfruttano i keypoint per monitorare gli esercizi dei pazienti da remoto. Il sistema garantisce che i pazienti mantengano la forma corretta durante le routine di riabilitazione, riducendo il rischio di infortuni e monitorando i progressi del recupero.
- Realtà Aumentata (AR): I filtri dei social media e le applicazioni di prova virtuale si basano sui keypoint facciali (occhi, naso, contorni della bocca) per ancorare saldamente maschere digitali o occhiali al volto di un utente, mantenendo l'allineamento anche durante il movimento.
- Monitoraggio del conducente: I sistemi di sicurezza automobilistica tracciano i punti di riferimento facciali per rilevare segni di sonnolenza o distrazione, avvisando il conducente se gli occhi si chiudono o se la posizione della testa indica una mancanza di attenzione.
Link to this sectionImplementare il rilevamento dei keypoint con YOLO26#
Utilizzando l'Ultralytics Platform o il Python SDK, gli sviluppatori possono implementare facilmente il rilevamento dei keypoint. L'esempio seguente mostra come caricare un modello YOLO26-pose pre-addestrato ed eseguire l'inferenza su un'immagine per rilevare scheletri umani.
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")Questo semplice flusso di lavoro consente il rapido dispiegamento di sofisticate applicazioni di computer vision (CV). Per gli utenti che desiderano addestrare i propri modelli di keypoint personalizzati — ad esempio, per rilevare punti specifici su macchinari industriali o specie animali — l'Ultralytics Platform semplifica il processo di annotazione dei dati e di addestramento del modello nel cloud.
Link to this sectionConsiderazioni avanzate#
Distribuire con successo il rilevamento dei keypoint richiede di gestire sfide come l'occlusione (quando una parte del corpo è nascosta) e diverse condizioni di illuminazione. I modelli moderni affrontano questo problema attraverso una solida data augmentation durante l'addestramento, esponendo la rete a scenari variegati. Inoltre, integrare i keypoint con algoritmi di object tracking consente un'identificazione coerente degli individui nel tempo nei flussi video, essenziale per applicazioni come la sicurezza o l'analisi comportamentale.






