Multi-Objekt-Verfolgung (MOT)
Erforschen Sie Multi-Object Tracking (MOT): track und identifizieren Sie Objekte über Videobilder hinweg mit YOLO11, Kalman-Filtern, Appearance Matching und moderner Daten-Assoziation.
Multi-Object Tracking (MOT) ist eine hochentwickelte Funktion im Bereich
Computer Vision (CV) , die
es Systemen ermöglicht, mehrere einzigartige Objekte über eine Sequenz von Videobildern hinweg zu detect, zu identifizieren und zu verfolgen. Im Gegensatz zu
herkömmlichen Objekterkennung, die jedes Bild als isoliertes Ereignis behandelt, führt MOT eine zeitliche Dimension in die
künstliche Intelligenz (KI). Durch die Zuweisung einer dauerhaften Identifikationsnummer (ID) zu jeder erkannten Instanz – wie beispielsweise einem bestimmten Auto im Verkehr oder
einem Spieler auf einem Sportfeld – ermöglicht MOT Algorithmen, die Identität von Objekten beizubehalten, während diese sich bewegen, interagieren und sogar
vorübergehend hinter Hindernissen verschwinden. Diese Kontinuität ist die Grundlage des modernen
Videoanalyse und
Verhaltensanalyse.
Die Mechanik von Tracking-Systemen
Die meisten modernen MOT-Systeme, einschließlich derer, die mit dem hochmodernen
YOLO26, arbeiten nach dem Paradigma „Tracking-by-Detection“. Dieser Arbeitsablauf basiert auf einem Zyklus aus Erkennung und
Zuordnung, um eine hohe Genauigkeit und
minimale ID-Wechsel
-
Erkennung: In jedem Frame wird ein Hochgeschwindigkeitsmodell wie YOLO26 oder die Vorgängergeneration
YOLO11 die Szene, um Objekte zu lokalisieren, und
erzeugt Begrenzungsrahmen und Klassenwahrscheinlichkeiten
generiert.
-
Bewegungsvorhersage: Um vorherzusagen, wohin sich ein Objekt als nächstes bewegen wird, verwenden Algorithmen mathematische
Schätzer wie den Kalman-Filter. Dadurch entsteht eine
Zustandsschätzung
basierend auf Geschwindigkeit und Flugbahn, wodurch der Suchbereich für das nachfolgende Bild verringert wird.
-
Datenzuordnung: Das System gleicht neue Erkennungen mit bestehenden Spuren ab. Optimierungsmethoden wie
der ungarischen Algorithmus lösen
dieses Zuordnungsproblem, indem sie die „Kosten” der Zuordnung minimieren, häufig unter Verwendung von
Intersection over Union (IoU)
zur Messung der räumlichen Überlappung.
-
Re-Identifizierung (ReID): Bei visuellen Hindernissen – auch als
Okklusionbezeichnet – verwenden fortschrittliche Tracker visuelle
Einbettungen , um das Objekt zu erkennen,
wenn es wieder erscheint, wobei seine ursprüngliche ID beibehalten wird, anstatt es als neues Objekt zu behandeln.
MOT vs. Verwandte Konzepte
Den Unterschied zwischen MOT und ähnlichen
Begriffen des maschinellen Lernens (ML) ist
entscheidend für die Auswahl des richtigen Tools.
-
vs. Objekterkennung: Die Erkennung beantwortet die Fragen „Was und wo?“ in einem statischen Bild. Wenn eine Person
in Frame 1 und Frame 2 erscheint, sieht ein Detektor zwei separate Personen. MOT verbindet sie und erkennt, dass es sich um dieselbe
Person handelt, die sich im Zeitverlauf bewegt.
-
vs. Single-Object Tracking (SOT): SOT konzentriert sich darauf, ein bestimmtes Ziel zu verfolgen, das oft
manuell vom Benutzer initialisiert wird, und es unabhängig von anderen Ablenkungen zu verfolgen. MOT ist komplexer, da es autonom
track unbekannte, schwankende Anzahl von Objekten detect track muss, die in die Szene eintreten und sie verlassen, was ein robustes
Speicherverwaltung
Logik.
Anwendungsfälle in der Praxis
Die Fähigkeit, Video-Feeds in strukturierte Daten umzuwandeln, treibt Innovationen in allen Branchen voran und ermöglicht
vorausschauende Modellierung und
automatisierte Entscheidungsfindung.
-
Intelligente Transportsysteme: In der
KI im Automobilbereich ist MOT
für selbstfahrende Autos und die
Infrastruktur intelligenter Städte unverzichtbar. Es
ermöglicht die Geschwindigkeitsschätzung durch die
Analyse der zurückgelegten Strecke eines Fahrzeugs über einen bestimmten Zeitraum und trägt zur Unfallverhütung bei, indem sie die Bewegungsbahnen von
Fußgängern und Radfahrern
-
Einzelhandelsanalyse: Stationäre Geschäfte nutzen
KI im Einzelhandel , um das Kaufverhalten
zu analysieren. Durch die Anwendung von MOT zur
Objekttrennungkönnen Einzelhändler Heatmaps von stark frequentierten Gängen erstellen, Verweildauer überwachen und das
Warteschlangenmanagement optimieren, um Wartezeiten
an der Kasse zu reduzieren.
Implementierung von Tracking mit Python
Die ultralytics Das Paket bietet eine nahtlose Schnittstelle für MOT und integriert leistungsstarke Algorithmen wie
BoT-SORT und
ByteTrackDas folgende Beispiel zeigt, wie ein Modell geladen und track in einem Videostream track werden können.
from ultralytics import YOLO
# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")
# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")
# Visualize the first frame's results with IDs drawn
results[0].show()
Dieser einfache Arbeitsablauf übernimmt automatisch die Erkennung, Zuordnung und ID-Vergabe, sodass sich Entwickler auf
übergeordnete Logik wie die
Regionszählung oder Verhaltensauslöser
. Weitere Informationen zur Konfiguration finden Sie in der
Dokumentation zum Tracking-Modus.