Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Multi-Objekt-Verfolgung (MOT)

Erforschen Sie Multi-Object Tracking (MOT): track und identifizieren Sie Objekte über Videobilder hinweg mit YOLO11, Kalman-Filtern, Appearance Matching und moderner Daten-Assoziation.

Multi-Object Tracking (MOT) ist eine zentrale Aufgabe in der Computer Vision, die die Erkennung mehrerer Objekte in einem Videostrom zu erkennen und ihre eindeutigen Identitäten über aufeinanderfolgende Bilder hinweg beizubehalten. Während Standard-Objekterkennung identifiziert, was in einem in einem einzelnen statischen Bild vorhanden ist, führt MOT eine zeitliche Dimension ein und beantwortet die Frage, wohin sich bestimmte Objekte sich im Laufe der Zeit bewegen. Durch die Zuweisung einer dauerhaften Identifikationsnummer (ID) für jede erkannte Instanz ermöglicht MOT Systeme in die Lage, Trajektorien zu analysieren, Interaktionen zu verstehen und eindeutige Objekte zu zählen, was sie zu einer grundlegenden Komponente modernen Videoverstehensanwendungen.

Die Mechanik von Tracking-Systemen

Die meisten hochmodernen MOT-Systeme, einschließlich solcher, die mit YOLO11arbeiten nach dem "Tracking-by-Detection"-Paradigma Paradigma. Bei diesem Arbeitsablauf wird der Prozess in verschiedene Phasen unterteilt, die für jedes Videobild wiederholt werden, um eine hohe Genauigkeit und Kontinuität zu gewährleisten.

  1. Erkennung: Das System nutzt zunächst ein leistungsstarkes Modell, um Objekte von Interesse zu lokalisieren, erzeugt Bounding Boxes und Vertrauenswerte.
  2. Bewegungsvorhersage: Um Erkennungen über mehrere Bilder hinweg zuzuordnen, schätzen Algorithmen wie der Kalman-Filter die zukünftige Position eines Objekts Objekts auf der Grundlage seiner vergangenen Geschwindigkeit und Position. Dies erzeugt eine Zustandsschätzung, die den Suchbereich für das nächste Bild eingrenzt. nächsten Frame eingrenzt.
  3. Datenzuordnung: Das System gleicht neue Entdeckungen mit vorhandenen Spuren ab. Optimierungsverfahren wie der ungarische Algorithmus lösen dieses Zuordnungsproblem, indem sie die Kosten des Abgleichs minimieren, indem sie häufig die Überschneidung über Vereinigung (IoU) zwischen der vorhergesagten track und der neuen Entdeckung.
  4. Re-Identifizierung (ReID): In Szenarien, in denen Objekte den Weg kreuzen oder vorübergehend verdeckt sind - ein Phänomen bekannt als Okklusion - verwenden Tracker visuelle Einbettungen, um das Objekt zu erkennen wenn es wieder auftaucht, und verhindern so einen ID-Wechsel.

MOT vs. verwandte Computer Vision Begriffe

Es ist wichtig, MOT von ähnlichen Konzepten zu unterscheiden, um die geeignete Technologie für einen bestimmten Anwendungsfall auszuwählen.

  • vs. Objekterkennung: Bei der Erkennung wird jedes Bild als unabhängiges Ereignis behandelt. Erscheint ein Fahrzeug in zwei aufeinanderfolgenden Frames auftaucht, sieht ein Detektor zwei separate Instanzen eines "Autos". Im Gegensatz dazu, Objektverfolgung diese Instanzen miteinander, und erkennt sie als ein und dasselbe Fahrzeug, das sich durch die Zeit bewegt.
  • vs. Single-Object-Tracking (SOT): SOT konzentriert sich auf die Verfolgung eines bestimmten Ziels, das vom Benutzer initialisiert wurde, und ignoriert oft alle anderen Aktivitäten. MOT ist komplexer, da es eine unbekannte und schwankende Anzahl von Objekten, die die Szene betreten und verlassen, autonom detect, track und verwalten muss. unbekannte und schwankende Anzahl von Objekten, die in die Szene eintreten und sie verlassen, was eine robuste Speicherverwaltungslogik.

Anwendungsfälle in der Praxis

Die Fähigkeit, mehrere Objekte gleichzeitig track , treibt die Innovation in verschiedenen Branchen voran, indem Videorohdaten in verwertbare Daten umgewandelt werden. Videodaten in umsetzbare Einblicke in die prädiktive Modellierung.

  • Intelligenter Verkehr: Im Bereich der AI in der Automobilindustrie ist MOT entscheidend für autonomes Fahren und Verkehrsüberwachung. Sie ermöglicht es Systemen, eine Geschwindigkeitsschätzung durch Berechnung der Strecke, die ein und hilft bei der Vorhersage potenzieller Kollisionen durch die Überwachung der Flugbahnen von Fußgängern und Radfahrern.
  • Analytik im Einzelhandel: Der stationäre Handel nutzt KI im Einzelhandel, um das Kundenverhalten zu verstehen. Unter Anwendung von MOT zur präzisen Objektzählung, können Einzelhändler den Fußverkehr messen, die Verweildauer in bestimmten Gängen analysieren und das Warteschlangenmanagement zur Verbesserung des Einkaufserlebnisses Erlebnis zu verbessern.
  • Sportanalyse: Trainer und Analysten verwenden MOT, um Spieler und den Ball während des Spiels track . Diese Daten ermöglichen eine fortschrittliche Analyse der Poseneinschätzung und helfen Teams dabei, Formationen, Spielerermüdung und Spieldynamik in Echtzeit-Szenarien zu verstehen.

Implementierung von Tracking mit Python

Die ultralytics Paket vereinfacht die Komplexität von MOT durch die Integration von leistungsstarken Trackern wie BoT-SORT und ByteTrack direkt in die Vorhersage Pipeline. Diese Tracker können einfach über Argumente ausgetauscht werden.

Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO11 geladen und das Tracking auf eine Videodatei angewendet wird:

from ultralytics import YOLO

# Load an official YOLO11 model pretrained on COCO
model = YOLO("yolo11n.pt")

# Perform tracking on a video file
# 'persist=True' ensures IDs are maintained between frames
# 'tracker' allows selection of algorithms like 'bytetrack.yaml' or 'botsort.yaml'
results = model.track(source="traffic_analysis.mp4", persist=True, tracker="bytetrack.yaml")

# Visualize the results
for result in results:
    result.show()

Dieser Code übernimmt die gesamte Pipeline, von der Erkennung bis zur ID-Zuweisung, so dass sich die Entwickler auf die High-Level-Logik Logik wie der Zählung von Regionen oder der Verhaltensanalyse Analyse konzentrieren. Für weitere Anpassungen lesen Sie bitte die Tracking-Modus-Dokumentation.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten