Scopri i fondamenti del tracciamento dei punti nella visione artificiale. Scopri come Ultralytics e i modelli avanzati di IA track i movimenti track per la robotica e gli effetti speciali.
Il tracciamento dei punti è un’operazione fondamentale nella visione artificiale che consiste nel calcolare e seguire il movimento di punti specifici e localizzati (come pixel o caratteristiche distintive) attraverso fotogrammi consecutivi di una sequenza video nel corso del tempo. A differenza del tracciamento degli oggetti, che monitora la posizione generale di intere entità utilizzando bounding box o maschere di segmentazione, il tracciamento dei punti si concentra su un livello di dettaglio molto più fine, a livello di sub-pixel. Identificando e mantenendo le corrispondenze tra queste posizioni precise, i sistemi di intelligenza artificiale (IA) possono svolgere compiti avanzati di comprensione video che richiedono un'analisi complessa del movimento.
Tracciare con precisione i punti in una scena dinamica è estremamente difficile. I punti tracciati sono spesso soggetti a occlusioni— ovvero situazioni in cui gli oggetti bloccano temporaneamente la visuale della telecamera — oppure possono uscire completamente dal campo visivo. Inoltre, le variazioni di illuminazione, i cambiamenti di prospettiva e i movimenti rapidi possono alterare drasticamente l'aspetto visivo di un punto.
Storicamente, questi compiti venivano gestiti da algoritmi classici come il flusso ottico di Lucas-Kanade. Tuttavia, gli approcci moderni utilizzano potenti architetture di deep learning. Le recenti innovazioni provenienti dai principali istituti di ricerca, come TAPIR (Tracking Any Point with Initialization and Refinement) Google e CoTracker3 di Meta AI, hanno rivoluzionato il settore. A differenza dei metodi più datati che tracciavano i punti in modo indipendente, modelli come CoTracker3 utilizzano i transformer per eseguire il tracciamento congiunto di più punti, sfruttando le dipendenze fisiche tra i punti che appartengono allo stesso oggetto. Questi modelli all'avanguardia utilizzano inoltre la pseudo-etichettatura su video del mondo reale per addestrare sistemi altamente accurati con requisiti di dati drasticamente ridotti.
Sebbene sia strettamente correlato, il tracciamento dei punti differisce in modo significativo dalle altre attività di visione artificiale:
Il tracciamento dei punti è un elemento fondamentale per diverse applicazioni avanzate:
Mentre i sistemi di tracciamento generici seguono pixel visivi arbitrari, è possibile track punti chiave strutturali track (come gli
occhi, le spalle o i polsi di una persona) utilizzando le funzionalità di tracciamento della posa del ultralytics pacchetto. Il
consigliato YOLO26 Questo modello offre un tracciamento dei punti chiave end-to-end ad alta velocità,
ideale per l'analisi del movimento.
from ultralytics import YOLO
# Load the recommended YOLO26 pose model for keypoint tracking
model = YOLO("yolo26n-pose.pt")
# Perform pose tracking on a video stream to follow human keypoints over time
results = model.track(source="video.mp4", stream=True)
# Iterate through the stream to process temporal keypoint tracking data
for frame_result in results:
# Each keypoint maintains its association across frames
print(f"Tracked {len(frame_result.keypoints)} human skeletons in current frame.")
Quando si implementano flussi di lavoro di visione artificiale su larga scala, la Ultralytics offre una soluzione ottimizzata per l’ annotazione dei dati, l’addestramento dei modelli e l’ implementazione senza soluzione di continuità, garantendo prestazioni affidabili in diversi ambienti edge e cloud.
Inizia il tuo viaggio con il futuro del machine learning