Scoprite i punti chiave della computer vision: stima della posa con Ultralytics YOLO11 per il fitness, il riconoscimento dei gesti e il tracciamento rapido e preciso.
I punti chiave sono posizioni spaziali specifiche e informative all'interno di un'immagine che definiscono le caratteristiche distintive di un oggetto o di una scena. Nel campo della visione artificiale (CV), questi punti, solitamente rappresentati come coordinate X e Y, indicano aree di interesse significative, come gli angoli di un edificio, i tratti del viso come gli occhi e il naso o le articolazioni anatomiche del corpo umano. A differenza dell'elaborazione di ogni pixel in una griglia densa, concentrarsi su questi punti sparsi e ricchi di significato consente ai modelli di intelligenza artificiale (AI) di comprendere in modo efficiente la geometria, analizzare le forme e track con elevata precisione. Questo concetto è fondamentale per attività avanzate che richiedono una comprensione strutturale del soggetto piuttosto che solo la sua presenza o posizione.
I punti chiave fungono da elementi fondamentali per mappare la struttura degli oggetti dinamici. Quando più punti chiave vengono rilevati e collegati, formano un grafico scheletrico o wireframe che rappresenta la posa dell'oggetto. Questo viene applicato più comunemente nella stima della posa, dove gli algoritmi di deep learning (DL) prevedono la posizione delle articolazioni - spalle, gomiti, fianchi e ginocchia - per ricostruire la postura umana o animale.
Sfruttando architetture avanzate come il modello Ultralytics , i sistemi possono regredire queste coordinate direttamente dalle immagini di input con una velocità notevole. Questo processo comporta una complessa estrazione di caratteristiche, in cui la rete neurale impara a identificare modelli locali invarianti rispetto all'illuminazione, alla rotazione e alla scala. Poiché i punti chiave rappresentano un riassunto sintetico dello stato di un oggetto, essi sono efficienti dal punto di vista computazionale, il che li rende ideali per l' inferenza in tempo reale su dispositivi di edge computing.
Per comprendere l'utilità specifica dei punti chiave, è utile confrontarli con altre attività primarie di visione artificiale presenti nella Ultralytics :
La capacità di track punti specifici di un soggetto apre le porte a diverse applicazioni in vari settori:
Le librerie moderne consentono di implementare facilmente il rilevamento dei punti chiave utilizzando modelli pre-addestrati. Il
ultralytics Il pacchetto fornisce accesso immediato a modelli all'avanguardia come YOLO26 e
YOLO11, che può essere addestrato su set di dati come
COCO o
Posizione della tigre.
L'esempio seguente mostra come caricare un modello di stima della posa e visualizzare i punti chiave rilevati utilizzando Python:
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on a local image
results = model("path/to/runner.jpg")
# Visualize the results, showing the skeletal keypoints
results[0].show()
In questo flusso di lavoro, il modello genera un oggetto risultato contenente le coordinate e un
punteggio di fiducia per ogni punto rilevato. Gli sviluppatori possono
estrarre questi dati grezzi x, y valori per costruire una logica personalizzata, come il conteggio delle ripetizioni in un'applicazione di ginnastica o il
controllare un personaggio del gioco tramite cattura del movimento.