Multi-Object Tracking (MOT)
Explore le suivi multi-objets (MOT) en vision par ordinateur. Apprends comment détecter et suivre des entités en utilisant Ultralytics YOLO26 pour la conduite autonome, la vente au détail et plus encore.
Le suivi multi-objets (MOT) est une tâche dynamique en vision par ordinateur (CV) qui consiste à détecter plusieurs entités distinctes dans un flux vidéo et à maintenir leur identité au fil du temps. Contrairement à la détection d'objets standard, qui traite chaque image comme un cliché isolé, le MOT introduit une dimension temporelle dans l'intelligence artificielle (IA). En attribuant un numéro d'identification (ID) unique à chaque instance détectée (comme un piéton spécifique dans une foule ou un véhicule sur une autoroute), les algorithmes de MOT permettent aux systèmes de tracer des trajectoires, d'analyser les comportements et de comprendre les interactions. Cette capacité est fondamentale pour la compréhension vidéo moderne et permet aux machines de percevoir la continuité dans un environnement changeant.
Link to this sectionComment fonctionne le MOT#
La plupart des systèmes de suivi contemporains fonctionnent sur le paradigme du "suivi par détection". Cette approche sépare le processus en deux étapes principales : identifier ce qui se trouve dans l'image, puis associer ces résultats aux objets connus du passé.
-
Détection : Dans chaque image, un modèle haute performance comme YOLO26 scanne l'image pour localiser les objets, en générant des boîtes englobantes et des probabilités de classe.
-
Prédiction de mouvement : Pour anticiper le déplacement futur d'un objet, les algorithmes utilisent souvent un Filtre de Kalman. Cet outil mathématique estime l'état d'un système dynamique (comme la vitesse et la position), ce qui aide à restreindre la zone de recherche dans l'image suivante.
-
Association de données : Le système fait correspondre les nouvelles détections aux trajectoires existantes. Des méthodes d'optimisation comme l'algorithme hongrois résolvent ce problème d'affectation en minimisant le coût de correspondance, en se basant souvent sur l'Intersection sur Union (IoU) pour mesurer le chevauchement spatial.
-
Ré-identification (ReID) : Lorsque des obstructions visuelles se produisent (phénomène appelé occlusion), les traqueurs avancés utilisent des embeddings visuels pour reconnaître l'objet lorsqu'il réapparaît. Cela aide à éviter les "changements d'ID", garantissant que le système sait que la voiture qui sort d'un tunnel est la même que celle qui y est entrée.
Link to this sectionDistinction entre le MOT et le suivi d'objet unique#
Bien que la terminologie soit similaire, le suivi multi-objets (MOT) diffère considérablement du suivi d'objet unique (SOT). Le SOT se concentre sur le suivi d'une cible spécifique initialisée dans la première image, ignorant souvent toutes les autres entités. À l'inverse, le MOT doit gérer un nombre inconnu et variable de cibles pouvant entrer ou sortir de la scène à tout moment. Cela rend le MOT plus exigeant sur le plan computationnel, car il nécessite une logique robuste pour gérer l'initialisation des trajectoires, leur terminaison et les interactions complexes entre plusieurs corps en mouvement.
Link to this sectionApplications concrètes#
La capacité à suivre plusieurs entités simultanément stimule l'innovation dans plusieurs industries majeures.
- Conduite autonome : Les voitures autonomes s'appuient fortement sur le MOT pour naviguer en toute sécurité. En suivant les piétons, les cyclistes et les autres véhicules, les systèmes autonomes peuvent prédire les positions futures afin d'éviter les collisions. Cela implique souvent la fusion de données provenant de caméras et de capteurs LiDAR pour une fiabilité maximale.
- Analyse de vente au détail : Dans les magasins physiques, les détaillants utilisent l'IA dans le commerce de détail pour cartographier les parcours clients. Les algorithmes de MOT génèrent des cartes thermiques de la circulation piétonne, aidant les gestionnaires à optimiser l'agencement des magasins et à améliorer la gestion des files d'attente pendant les heures de pointe.
- Analyse sportive : Les équipes professionnelles utilisent le MOT pour analyser les mouvements des joueurs et les formations d'équipe. En suivant chaque joueur sur le terrain, les entraîneurs peuvent extraire des métriques détaillées sur la vitesse, la distance parcourue et le positionnement tactique en utilisant des techniques d'estimation de pose.
Link to this sectionImplémentation du MOT avec Python#
Ultralytics rend l'implémentation du suivi avec des modèles de pointe très simple. La méthode track() intègre logiquement la détection et le suivi, prenant en charge des algorithmes comme ByteTrack et BoT-SORT. L'exemple ci-dessous démontre comment suivre des véhicules dans une vidéo en utilisant le modèle YOLO26 recommandé.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")Link to this sectionDéfis dans le suivi multi-objets#
Malgré les avancées, le MOT reste un domaine complexe. L'occlusion est une difficulté majeure ; lorsque les objets se croisent ou se cachent derrière des obstacles, maintenir leur identité est ardu. Les scènes bondées, comme un marathon animé ou une volée d'oiseaux, testent les limites des algorithmes d'association de données. De plus, maintenir des vitesses d'inférence en temps réel tout en traitant des flux vidéo haute résolution nécessite des architectures de modèles efficaces et souvent du matériel spécialisé comme les appareils NVIDIA Jetson.
Pour relever ces défis, les chercheurs explorent des approches d'apprentissage profond de bout en bout qui unifient la détection et le suivi dans un seul réseau, ainsi que l'utilisation de la Plateforme Ultralytics pour annoter des jeux de données complexes et entraîner des modèles personnalisés robustes.






