Scoprite i punti chiave della computer vision: stima della posa con Ultralytics YOLO11 per il fitness, il riconoscimento dei gesti e il tracciamento rapido e preciso.
I punti chiave sono posizioni spaziali precise e informative all'interno di un'immagine che definiscono caratteristiche distinte di un oggetto o di una scena. scena. Nel campo della computer vision, queste coordinate, tipicamente rappresentate come valori X e Y, segnano punti di interesse significativi, come gli angoli di un edificio, il centro di un occhio o le articolazioni di un corpo umano. di un edificio, il centro di un occhio o le articolazioni di un corpo umano. A differenza dell'elaborazione di ogni pixel di un'immagine, l'attenzione a questi questi punti radi e ricchi di semantica, i modelli di modelli di intelligenza artificiale (AI) di comprendere in modo efficiente la geometria, analizzare le forme e track movimenti con grande precisione. Questo concetto è fondamentale per compiti avanzati che richiedono una comprensione strutturale del soggetto, piuttosto che la sua sola presenza o posizione.
I punti chiave sono gli elementi fondamentali per la mappatura della struttura degli oggetti dinamici. Quando più punti chiave vengono rilevati e collegati, formano un grafico scheletrico o wireframe che rappresenta la posa dell'oggetto. Questo è più comunemente applicato alla stima della posa, dove gli algoritmi algoritmi prevedono la posizione delle articolazioni anatomiche - spalle, gomiti, fianchi e ginocchia - per ricostruire la postura umana.
Sfruttando architetture di deep learning come YOLO11, i sistemi possono riformulare queste coordinate direttamente dalle immagini in ingresso. Questo processo comporta estrazione di caratteristiche complesse in cui la rete impara a modelli locali invarianti alla luce, alla rotazione e alla scala. I dati ottenuti sono leggeri e computazionalmente efficienti, il che li rende ideali per per l 'inferenza in tempo reale sui dispositivi edge.
Per comprendere l'utilità specifica dei keypoint, è utile confrontarli con altri compiti primari di computer vision compiti primari della computer vision:
La capacità di track punti specifici di un soggetto apre le porte a diverse applicazioni in vari settori:
Le librerie moderne consentono di implementare facilmente il rilevamento dei punti chiave utilizzando modelli pre-addestrati. Il
ultralytics fornisce un accesso immediato a
YOLO11 modelli addestrati su grandi insiemi di dati come
COCO per identificare le articolazioni umane.
L'esempio seguente mostra come caricare un modello di stima della posa e visualizzare i punti chiave rilevati:
from ultralytics import YOLO
# Load a pretrained YOLO11n-pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on a local image or URL
results = model("https://docs.ultralytics.com/tasks/detect/")
# Visualize the results, showing the skeletal keypoints
results[0].show()
In questo flusso di lavoro, il modello emette una Keypoints contenente le coordinate e un oggetto
punteggio di fiducia per ogni punto rilevato. Gli sviluppatori possono
estrarre questi dati grezzi x, y valori per costruire una logica personalizzata, come il conteggio delle ripetizioni in un'applicazione di ginnastica o il
controllare un personaggio del gioco tramite
interazione uomo-macchina.