Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Inseguimento di più oggetti (MOT)

Esplorare il Multi-Object Tracking (MOT): track e re-identificare gli oggetti nei fotogrammi video con YOLO11, filtri di Kalman, corrispondenza di aspetto e moderna associazione di dati.

Il Multi-Object Tracking (MOT) è una sofisticata funzionalità della visione artificiale (CV) che consente ai sistemi di detect, identificare e seguire più entità uniche in una sequenza di fotogrammi video. A differenza del rilevamento di oggetti standard rilevamento di oggetti, che tratta ogni fotogramma dell'immagine come un evento isolato, il MOT introduce una dimensione temporale nell' intelligenza artificiale (AI). Assegnando un numero di identificazione (ID) persistente a ciascuna istanza rilevata, come un'auto specifica nel traffico o un giocatore su un campo sportivo, MOT consente agli algoritmi di mantenere l'identità degli oggetti mentre si muovono, interagiscono e persino scompaiono temporaneamente dietro ostacoli. Questa continuità è alla base della moderna comprensione video e analisi comportamentale.

La meccanica dei sistemi di tracciamento

La maggior parte dei sistemi MOT contemporanei, compresi quelli alimentati dall'avanzatissimo YOLO26, funzionano secondo un paradigma di "tracciamento tramite rilevamento". Questo flusso di lavoro si basa su un ciclo di rilevamento e associazione per garantire un'elevata precisione e un minimo cambio di ID.

  1. Rilevamento: in ogni fotogramma, un modello ad alta velocità come YOLO26 o la generazione precedente YOLO11 scansiona la scena per individuare gli oggetti, generando riquadri di delimitazione e probabilità di classe.
  2. Previsione del movimento: per prevedere dove si sposterà un oggetto, gli algoritmi utilizzano stimatori matematici come il filtro di Kalman. Questo crea una stima dello stato basata sulla velocità e sulla traiettoria, restringendo l'area di ricerca per il fotogramma successivo.
  3. Associazione dei dati: il sistema abbina i nuovi rilevamenti alle tracce esistenti. Metodi di ottimizzazione quali l' algoritmo ungherese risolvono questo problema di assegnazione minimizzando il "costo" dell'abbinamento, spesso utilizzando l' Intersection over Union (IoU) per misurare la sovrapposizione spaziale.
  4. Re-Identificazione (ReID): Quando si verificano ostacoli visivi, noti come occlusione, i tracker avanzati utilizzano incorporamenti per riconoscere l'oggetto quando riappare, conservando il suo ID originale piuttosto che trattarlo come una nuova entità.

MOT vs. Concetti correlati

Comprendere la differenza tra MOT e simili machine learning (ML) è fondamentale per selezionare lo strumento giusto.

  • vs. Rilevamento di oggetti: il rilevamento risponde alle domande "cosa e dove" in un'immagine statica. Se una persona appare nel fotogramma 1 e nel fotogramma 2, un rilevatore vede due persone separate. Il MOT le collega, comprendendo che si tratta della stessa persona che si muove nel tempo.
  • vs. Single-Object Tracking (SOT): il SOT si concentra sul seguire un bersaglio specifico, spesso inizializzato manualmente da un utente, e tracciarlo indipendentemente da altre distrazioni. Il MOT è più complesso in quanto deve detect track numero sconosciuto e fluttuante di oggetti che entrano ed escono dalla scena, richiedendo una solida gestione della memoria .

Applicazioni nel mondo reale

La capacità di trasformare i feed video in dati strutturati stimola l'innovazione in tutti i settori, consentendo la modellizzazione predittiva e un processo decisionale automatizzato.

Implementare il tracciamento con Python

Il ultralytics Il pacchetto fornisce un'interfaccia perfettamente integrata per MOT, integrando potenti algoritmi come SORTEGGIAMENTO e ByteTrack. L'esempio seguente mostra come caricare un modello e track in un flusso video.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")

# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")

# Visualize the first frame's results with IDs drawn
results[0].show()

Questo semplice flusso di lavoro gestisce automaticamente il rilevamento, l'associazione e l'assegnazione dell'ID, consentendo agli sviluppatori di concentrarsi su logiche di livello superiore come il conteggio delle regioni o trigger comportamentali . Per ulteriori dettagli sulla configurazione, fare riferimento alla documentazione sulla modalità di tracciamento.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora