Suivi de plusieurs objets (MOT)
Découvrez le suivi d'objets multiples (MOT) : track et ré-identifiez des objets à travers des images vidéo avec YOLO11, les filtres de Kalman, la correspondance d'apparence et l'association de données moderne.
Le suivi multi-objets (MOT) est une fonctionnalité sophistiquée de la
vision par ordinateur (CV) qui
permet aux systèmes de detect, d'identifier et de suivre plusieurs entités uniques à travers une séquence d'images vidéo. Contrairement à la
détection d'objets standard détection d'objets, qui traite chaque image comme un événement isolé, le MOT introduit une dimension temporelle dans l'
l'intelligence artificielle (IA). En attribuant un numéro d'identification (ID) permanent à chaque instance détectée, telle qu'une voiture spécifique dans la circulation ou
un joueur sur un terrain de sport, la MOT permet aux algorithmes de conserver l'identité des objets lorsqu'ils se déplacent, interagissent et même
disparaissent temporairement derrière des obstacles. Cette continuité est le fondement de la compréhension moderne de la
compréhension vidéo et de l'
analyse comportementale
La mécanique des systèmes de suivi
La plupart des systèmes MOT contemporains, y compris ceux équipés de la technologie de pointe
YOLO26, fonctionnent selon un paradigme de « suivi par détection ». Ce flux de travail repose sur un cycle de détection et d'
association afin de garantir une grande précision et un
changement d'ID minimal.
-
Détection : dans chaque image, un modèle à grande vitesse tel que YOLO26 ou la génération précédente
YOLO11 scanne la scène pour localiser les objets,
générant des cadres de sélection et des
probabilités de classe.
-
Prédiction de mouvement : pour prédire où un objet va se déplacer ensuite, les algorithmes utilisent des estimateurs mathématiques
tels que le filtre de Kalman. Cela permet de créer une
estimation d'état
estime de l'état en fonction de la vitesse et de la trajectoire, ce qui réduit la zone de recherche pour l'image suivante.
-
Association des données : le système associe les nouvelles détections aux pistes existantes. Méthodes d'optimisation telles que
l' algorithme hongrois résolvent
ce problème d'affectation en minimisant le « coût » de la mise en correspondance, souvent à l'aide de l'
Intersection over Union (IoU)
pour mesurer le chevauchement spatial.
-
Re-identification (ReID) : en cas d'obstacles visuels, appelés
occlusion, les trackers avancés utilisent des
intégrations pour reconnaître l'objet
lorsqu'il réapparaît, en conservant son identifiant d'origine plutôt que de le traiter comme une nouvelle entité.
MOT vs concepts connexes
Comprendre la distinction entre le MOT et l'apprentissage automatique (ML) similaire
apprentissage automatique (ML) est
cruciale pour choisir le bon outil.
-
vs. Détection d'objets : la détection répond aux questions « quoi » et « où » dans une image statique. Si une personne
apparaît dans l'image 1 et l'image 2, un détecteur voit deux personnes distinctes. Le MOT les relie, comprenant qu'il s'agit de la même
personne se déplaçant dans le temps.
-
vs. Suivi d'objet unique (SOT) : le SOT se concentre sur le suivi d'une cible spécifique, souvent initialisée
manuellement par un utilisateur, et la suit indépendamment des autres distractions. Le MOT est plus complexe, car il doit detect track de manière autonome
track nombre inconnu et fluctuant d'objets entrant et sortant de la scène, ce qui nécessite une gestion robuste de la mémoire
logique de gestion de la mémoire
.
Applications concrètes
La capacité à transformer les flux vidéo en données structurées stimule l'innovation dans tous les secteurs, permettant ainsi la
modélisation prédictive et la
prise de décision automatisée.
-
Systèmes de transport intelligents : dans le domaine de l'
IA dans le , MOT
est essentiel pour les voitures autonomes et les
infrastructures des villes intelligentes. Il
permet l' estimer la vitesse en
analysant la distance parcourue par un véhicule au fil du temps et aide à prévenir les accidents en prédisant les trajectoires des
piétons et des cyclistes.
-
Analyse du commerce de détail : les magasins physiques utilisent
l'IA dans le commerce de détail pour analyser le comportement des acheteurs
. En appliquant la MOT pour le
compter les objets, les détaillants peuvent générer des cartes thermiques des allées très fréquentées, surveiller les temps d'attente et optimiser la
gestion des files d'attente afin de réduire les temps d'attente
aux caisses.
Mise en œuvre du suivi avec Python
Le ultralytics Le package fournit une interface transparente pour MOT, intégrant des algorithmes puissants tels que
BoT-SORT et
ByteTrack. L'exemple suivant montre comment charger un modèle et track dans un flux vidéo.
from ultralytics import YOLO
# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")
# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")
# Visualize the first frame's results with IDs drawn
results[0].show()
Ce flux de travail simple gère automatiquement la détection, l'association et l'attribution d'identifiants, permettant ainsi aux développeurs de se concentrer sur
une logique de plus haut niveau, telle que le
comptage de zones ou les
déclencheurs comportementaux. Pour plus de détails sur la configuration, reportez-vous à la
documentation sur le mode de suivi.