Multi-Object Tracking (MOT)
Esplora il Multi-Object Tracking (MOT) nella visione artificiale. Impara a rilevare e tracciare entità utilizzando Ultralytics YOLO26 per la guida autonoma, la vendita al dettaglio e altro ancora.
Il Multi-Object Tracking (MOT) è un'attività dinamica nella computer vision (CV) che consiste nel rilevare molteplici entità distinte all'interno di un flusso video e nel mantenere le loro identità nel tempo. A differenza del classico object detection, che tratta ogni fotogramma come un'istantanea isolata, il MOT introduce una dimensione temporale nell'artificial intelligence (AI). Assegnando un numero di identificazione (ID) univoco a ogni istanza rilevata, come un pedone specifico tra la folla o un veicolo in autostrada, gli algoritmi MOT permettono ai sistemi di tracciare traiettorie, analizzare comportamenti e comprendere interazioni. Questa capacità è fondamentale per il moderno video understanding e consente alle macchine di percepire la continuità in un ambiente in evoluzione.
Link to this sectionCome funziona il MOT#
La maggior parte dei sistemi di tracciamento contemporanei opera secondo il paradigma "tracking-by-detection". Questo approccio separa il processo in due fasi principali: identificare cosa è presente nel fotogramma e successivamente associare tali risultati agli oggetti noti dal passato.
-
Detection: In ogni fotogramma, un modello ad alte prestazioni come YOLO26 scansiona l'immagine per localizzare gli oggetti, generando bounding boxes e probabilità di classe.
-
Motion Prediction: Per anticipare dove si sposterà un oggetto, gli algoritmi utilizzano spesso un Kalman Filter. Questo strumento matematico stima lo stato di un sistema dinamico, come velocità e posizione, aiutando a restringere l'area di ricerca nel fotogramma successivo.
-
Data Association: Il sistema abbina le nuove rilevazioni alle tracce esistenti. Metodi di ottimizzazione come l'Hungarian algorithm risolvono questo problema di assegnazione minimizzando il costo dell'abbinamento, basandosi spesso sull'Intersection over Union (IoU) per misurare la sovrapposizione spaziale.
-
Re-Identification (ReID): Quando si verificano ostruzioni visive, note come occlusioni, i tracker avanzati utilizzano embeddings visivi per riconoscere l'oggetto quando riappare. Questo aiuta a prevenire lo "scambio di ID", garantendo che il sistema sappia che l'auto che emerge da un tunnel è la stessa che vi è entrata.
Link to this sectionDistinguere il MOT dal Single Object Tracking#
Sebbene la terminologia sia simile, il Multi-Object Tracking (MOT) differisce significativamente dal Single Object Tracking (SOT). Il SOT si concentra sul seguire un obiettivo specifico inizializzato nel primo fotogramma, spesso ignorando tutte le altre entità. Al contrario, il MOT deve gestire un numero sconosciuto e variabile di obiettivi che possono entrare o uscire dalla scena in qualsiasi momento. Ciò rende il MOT computazionalmente più impegnativo, poiché richiede una logica robusta per gestire l'inizio e la fine delle tracce, nonché le complesse interazioni tra molteplici corpi in movimento.
Link to this sectionApplicazioni nel mondo reale#
La capacità di tracciare più entità simultaneamente guida l'innovazione in diversi settori chiave.
- Autonomous Driving: Le auto a guida autonoma fanno grande affidamento sul MOT per navigare in sicurezza. Tracciando pedoni, ciclisti e altri veicoli, i sistemi autonomi possono prevedere le posizioni future per evitare collisioni. Ciò comporta spesso la fusione di dati provenienti da telecamere e sensori LiDAR per la massima affidabilità.
- Retail Analytics: Nei negozi fisici, i rivenditori utilizzano l'AI in retail per mappare i percorsi dei clienti. Gli algoritmi MOT generano heatmaps del traffico pedonale, aiutando i manager a ottimizzare il layout del negozio e a migliorare la queue management durante le ore di punta.
- Sports Analytics: Le squadre professionistiche utilizzano il MOT per analizzare i movimenti dei giocatori e le formazioni tattiche. Tracciando ogni giocatore sul campo, gli allenatori possono estrarre metriche dettagliate su velocità, distanza percorsa e posizionamento tattico utilizzando tecniche di pose estimation.
Link to this sectionImplementazione del MOT con Python#
Ultralytics rende semplice implementare il tracciamento con modelli all'avanguardia. Il metodo track() integra logicamente rilevamento e tracciamento in modo fluido, supportando algoritmi come ByteTrack e BoT-SORT. L'esempio seguente mostra come tracciare veicoli in un video utilizzando il modello YOLO26 consigliato.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")Link to this sectionSfide nel Multi-Object Tracking#
Nonostante i progressi, il MOT rimane un campo complesso. L'occlusione è una difficoltà primaria; quando gli oggetti incrociano i percorsi o si nascondono dietro ostacoli, mantenere l'identità è complicato. Le scene affollate, come una maratona movimentata o uno stormo di uccelli, mettono alla prova i limiti degli algoritmi di data association. Inoltre, mantenere velocità di real-time inference durante l'elaborazione di flussi video ad alta risoluzione richiede architetture di modelli efficienti e spesso hardware specializzato come i dispositivi NVIDIA Jetson.
Per affrontare queste sfide, i ricercatori stanno esplorando approcci di deep learning end-to-end che unificano rilevamento e tracciamento in un'unica rete, oltre a sfruttare la Ultralytics Platform per annotare set di dati complessi e addestrare robusti modelli personalizzati.






