Multi-Objekt-Verfolgung (MOT)
Erforschen Sie Multi-Object Tracking (MOT): track und identifizieren Sie Objekte über Videobilder hinweg mit YOLO11, Kalman-Filtern, Appearance Matching und moderner Daten-Assoziation.
Multi-Object Tracking (MOT) ist eine zentrale Aufgabe in der
Computer Vision, die die Erkennung mehrerer
Objekte in einem Videostrom zu erkennen und ihre eindeutigen Identitäten über aufeinanderfolgende Bilder hinweg beizubehalten. Während
Standard-Objekterkennung identifiziert, was in einem
in einem einzelnen statischen Bild vorhanden ist, führt MOT eine zeitliche Dimension ein und beantwortet die Frage, wohin sich bestimmte
Objekte sich im Laufe der Zeit bewegen. Durch die Zuweisung einer dauerhaften Identifikationsnummer (ID) für jede erkannte Instanz ermöglicht MOT
Systeme in die Lage, Trajektorien zu analysieren, Interaktionen zu verstehen und eindeutige Objekte zu zählen, was sie zu einer grundlegenden Komponente
modernen Videoverstehensanwendungen.
Die Mechanik von Tracking-Systemen
Die meisten hochmodernen MOT-Systeme, einschließlich solcher, die mit
YOLO11arbeiten nach dem "Tracking-by-Detection"-Paradigma
Paradigma. Bei diesem Arbeitsablauf wird der Prozess in verschiedene Phasen unterteilt, die für jedes Videobild wiederholt werden, um eine hohe
Genauigkeit und Kontinuität zu gewährleisten.
-
Erkennung: Das System nutzt zunächst ein leistungsstarkes Modell, um Objekte von Interesse zu lokalisieren,
erzeugt Bounding Boxes und
Vertrauenswerte.
-
Bewegungsvorhersage: Um Erkennungen über mehrere Bilder hinweg zuzuordnen, schätzen Algorithmen wie der
Kalman-Filter die zukünftige Position eines Objekts
Objekts auf der Grundlage seiner vergangenen Geschwindigkeit und Position. Dies erzeugt eine
Zustandsschätzung, die den Suchbereich für das nächste Bild eingrenzt.
nächsten Frame eingrenzt.
-
Datenzuordnung: Das System gleicht neue Entdeckungen mit vorhandenen Spuren ab. Optimierungsverfahren
wie der ungarische Algorithmus lösen dieses
Zuordnungsproblem, indem sie die Kosten des Abgleichs minimieren, indem sie häufig die
Überschneidung über Vereinigung (IoU) zwischen
der vorhergesagten track und der neuen Entdeckung.
-
Re-Identifizierung (ReID): In Szenarien, in denen Objekte den Weg kreuzen oder vorübergehend verdeckt sind - ein
Phänomen bekannt als Okklusion - verwenden
Tracker visuelle Einbettungen, um das Objekt zu erkennen
wenn es wieder auftaucht, und verhindern so einen ID-Wechsel.
MOT vs. verwandte Computer Vision Begriffe
Es ist wichtig, MOT von ähnlichen Konzepten zu unterscheiden, um die geeignete Technologie für einen bestimmten Anwendungsfall auszuwählen.
-
vs. Objekterkennung: Bei der Erkennung wird jedes Bild als unabhängiges Ereignis behandelt. Erscheint ein Fahrzeug in
zwei aufeinanderfolgenden Frames auftaucht, sieht ein Detektor zwei separate Instanzen eines "Autos". Im Gegensatz dazu,
Objektverfolgung diese Instanzen miteinander,
und erkennt sie als ein und dasselbe Fahrzeug, das sich durch die Zeit bewegt.
-
vs. Single-Object-Tracking (SOT): SOT konzentriert sich auf die Verfolgung eines bestimmten Ziels, das vom
Benutzer initialisiert wurde, und ignoriert oft alle anderen Aktivitäten. MOT ist komplexer, da es eine unbekannte und schwankende Anzahl von Objekten, die die Szene betreten und verlassen, autonom detect, track und verwalten muss.
unbekannte und schwankende Anzahl von Objekten, die in die Szene eintreten und sie verlassen, was eine robuste
Speicherverwaltungslogik.
Anwendungsfälle in der Praxis
Die Fähigkeit, mehrere Objekte gleichzeitig track , treibt die Innovation in verschiedenen Branchen voran, indem Videorohdaten in verwertbare Daten umgewandelt werden.
Videodaten in umsetzbare
Einblicke in die prädiktive Modellierung.
-
Intelligenter Verkehr: Im Bereich der
AI in der Automobilindustrie ist MOT entscheidend für
autonomes Fahren und Verkehrsüberwachung. Sie ermöglicht es Systemen, eine
Geschwindigkeitsschätzung durch Berechnung der Strecke, die ein
und hilft bei der Vorhersage potenzieller Kollisionen durch die Überwachung der Flugbahnen von Fußgängern und
Radfahrern.
-
Analytik im Einzelhandel: Der stationäre Handel nutzt
KI im Einzelhandel, um das Kundenverhalten zu verstehen. Unter
Anwendung von MOT zur präzisen Objektzählung,
können Einzelhändler den Fußverkehr messen, die Verweildauer in bestimmten Gängen analysieren und das
Warteschlangenmanagement zur Verbesserung des Einkaufserlebnisses
Erlebnis zu verbessern.
-
Sportanalyse: Trainer und Analysten verwenden MOT, um Spieler und den Ball während des Spiels track . Diese
Daten ermöglichen eine fortschrittliche Analyse der Poseneinschätzung und helfen
Teams dabei, Formationen, Spielerermüdung und Spieldynamik in
Echtzeit-Szenarien zu verstehen.
Implementierung von Tracking mit Python
Die ultralytics Paket vereinfacht die Komplexität von MOT durch die Integration von leistungsstarken Trackern wie
BoT-SORT und
ByteTrack direkt in die Vorhersage
Pipeline. Diese Tracker können einfach über Argumente ausgetauscht werden.
Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO11 geladen und das Tracking auf eine Videodatei angewendet wird:
from ultralytics import YOLO
# Load an official YOLO11 model pretrained on COCO
model = YOLO("yolo11n.pt")
# Perform tracking on a video file
# 'persist=True' ensures IDs are maintained between frames
# 'tracker' allows selection of algorithms like 'bytetrack.yaml' or 'botsort.yaml'
results = model.track(source="traffic_analysis.mp4", persist=True, tracker="bytetrack.yaml")
# Visualize the results
for result in results:
result.show()
Dieser Code übernimmt die gesamte Pipeline, von der Erkennung bis zur ID-Zuweisung, so dass sich die Entwickler auf die High-Level-Logik
Logik wie der Zählung von Regionen oder der Verhaltensanalyse
Analyse konzentrieren. Für weitere Anpassungen lesen Sie bitte die
Tracking-Modus-Dokumentation.