Entdecken Sie Multi-Object Tracking (MOT) in der Bildverarbeitung. Erfahren Sie, wie Sie mit Ultralytics track für autonomes Fahren, den Einzelhandel und andere Bereiche detect track können.
Multi-Object Tracking (MOT) ist eine dynamische Aufgabe im Bereich Computer Vision (CV), bei der mehrere unterschiedliche Objekte innerhalb eines Videostreams erkannt und ihre Identitäten über einen bestimmten Zeitraum hinweg beibehalten werden. Im Gegensatz zur herkömmlichen Objekterkennung, bei der jedes Einzelbild als isolierte Momentaufnahme behandelt wird, führt MOT eine zeitliche Dimension in die künstliche Intelligenz (KI) ein. Durch die Zuweisung einer eindeutigen Identifikationsnummer (ID) zu jeder erkannten Instanz – beispielsweise einem bestimmten Fußgänger in einer Menschenmenge oder einem Fahrzeug auf einer Autobahn – ermöglichen MOT-Algorithmen Systemen, Trajektorien zu verfolgen, Verhalten zu analysieren und Interaktionen zu verstehen. Diese Fähigkeit ist grundlegend für das moderne Verständnis von Videos und ermöglicht es Maschinen, Kontinuität in einer sich verändernden Umgebung wahrzunehmen.
Die meisten modernen Verfolgungssysteme arbeiten nach dem Paradigma „Verfolgung durch Erkennung”. Bei diesem Ansatz wird der Prozess in zwei Hauptphasen unterteilt: zunächst wird identifiziert, was sich im Bild befindet, und anschließend werden diese Ergebnisse mit bekannten Objekten aus der Vergangenheit in Verbindung gebracht.
Obwohl die Terminologie ähnlich ist, unterscheidet sich Multi-Object Tracking (MOT) erheblich von Single Object Tracking (SOT). SOT konzentriert sich darauf, einem bestimmten Ziel zu folgen, das im ersten Frame initialisiert wurde, wobei alle anderen Objekte oft ignoriert werden. Im Gegensatz dazu muss MOT eine unbekannte und variierende Anzahl von Zielen verarbeiten, die jederzeit in die Szene eintreten oder sie verlassen können. Dies macht MOT rechnerisch anspruchsvoller, da es eine robuste Logik erfordert, um track und Beendigung track sowie die komplexen Wechselwirkungen zwischen mehreren sich bewegenden Körpern zu verarbeiten.
Die Möglichkeit, track Entitäten gleichzeitig zu track , treibt Innovationen in mehreren wichtigen Branchen voran.
Ultralytics es einfach, Tracking mit modernsten Modellen zu implementieren. Die
track() Die Methode integriert Erkennungs- und Verfolgungslogik nahtlos und unterstützt Algorithmen wie
ByteTrack und
BoT-SORTDas folgende Beispiel zeigt
die Verfolgung von Fahrzeugen in einem Video unter Verwendung der empfohlenen
YOLO26-Modell.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
Trotz der Fortschritte bleibt MOT ein anspruchsvolles Gebiet. Eine der größten Schwierigkeiten ist die Okklusion: Wenn Objekte sich kreuzen oder hinter Hindernissen verstecken, ist es komplex, ihre Identität zu erhalten. Überfüllte Szenen, wie ein belebter Marathon oder ein Vogelschwarm, testen die Grenzen der Datenzuordnungsalgorithmen. Darüber hinaus erfordert die Aufrechterhaltung der Echtzeit-Inferenzgeschwindigkeit bei der Verarbeitung von hochauflösenden Videostreams effiziente Modellarchitekturen und oft spezielle Hardware wie NVIDIA .
Um diesen Herausforderungen zu begegnen, erforschen Wissenschaftler End-to-End-Deep-Learning-Ansätze, die Erkennung und Verfolgung in einem einzigen Netzwerk vereinen, und nutzen die Ultralytics , um anspruchsvolle Datensätze zu annotieren und robuste benutzerdefinierte Modelle zu trainieren.