Découvrez le suivi multi-objets (MOT) dans la vision par ordinateur. Apprenez à detect à track à l'aide Ultralytics pour la conduite autonome, la vente au détail et bien plus encore.
Le suivi multi-objets (MOT) est une tâche dynamique en vision par ordinateur (CV) qui consiste à détecter plusieurs entités distinctes dans un flux vidéo et à maintenir leur identité au fil du temps. Contrairement à la détection d'objets standard, qui traite chaque image comme un instantané isolé, le MOT introduit une dimension temporelle dans l' intelligence artificielle (IA). En attribuant un numéro d'identification unique (ID) à chaque instance détectée, telle qu'un piéton spécifique dans une foule ou un véhicule sur une autoroute, les algorithmes MOT permettent aux systèmes de suivre les trajectoires, d'analyser les comportements et de comprendre les interactions. Cette capacité est fondamentale pour la compréhension vidéo moderne et permet aux machines de percevoir la continuité dans un environnement changeant.
La plupart des systèmes de suivi contemporains fonctionnent selon un paradigme de « suivi par détection ». Cette approche sépare le processus en deux étapes principales : identifier ce qui se trouve dans le cadre, puis associer ces résultats à des objets connus du passé.
Bien que la terminologie soit similaire, le suivi multi-objets (MOT) diffère considérablement du suivi d'objet unique (SOT). Le SOT se concentre sur le suivi d'une cible spécifique initialisée dans la première image, ignorant souvent toutes les autres entités. En revanche, le MOT doit gérer un nombre inconnu et variable de cibles qui peuvent entrer ou sortir de la scène à tout moment. Cela rend le MOT plus exigeant sur le plan informatique, car il nécessite une logique robuste pour gérer track et la fin track , ainsi que les interactions complexes entre plusieurs corps en mouvement.
La capacité à track simultanément track entités stimule l'innovation dans plusieurs secteurs majeurs.
Ultralytics la mise en œuvre du suivi grâce à des modèles de pointe. Le
track() Cette méthode intègre de manière transparente la logique de détection et de suivi, prenant en charge des algorithmes tels que
ByteTrack et
BoT-SORT. L'exemple ci-dessous montre comment
suivre des véhicules dans une vidéo à l'aide de la méthode recommandée.
Modèle YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
Malgré les progrès réalisés, le MOT reste un domaine difficile. L'occlusion est l'une des principales difficultés : lorsque des objets se croisent ou se cachent derrière des obstacles, il est complexe de maintenir leur identité. Les scènes encombrées, telles que un marathon très fréquenté ou un vol d'oiseaux, testent les limites des algorithmes d'association de données. De plus, le maintien de vitesses d'inférence en temps réel lors du traitement de flux vidéo haute résolution nécessite des architectures de modèles efficaces et souvent du matériel spécialisé, tel que les appareils NVIDIA .
Pour relever ces défis, les chercheurs explorent des approches d'apprentissage profond de bout en bout qui unifient la détection et le suivi dans un réseau unique, et exploitent Ultralytics pour annoter des ensembles de données complexes et former des modèles personnalisés robustes.