Изучите многообъектное отслеживание (MOT) в компьютерном зрении. Узнайте, как detect track с помощью Ultralytics для автономного вождения, розничной торговли и других областей.
Отслеживание нескольких объектов (MOT) — это динамическая задача в компьютерном зрении (CV), которая включает в себя обнаружение нескольких отдельных объектов в видеопотоке и сохранение их идентичности с течением времени. В отличие от стандартного обнаружения объектов, при котором каждый кадр рассматривается как изолированный снимок, MOT вводит временное измерение в искусственный интеллект (AI). Путем присвоения уникального идентификационного номера (ID) каждому обнаруженному объекту — например, конкретному пешеходу в толпе или автомобилю на шоссе — алгоритмы MOT позволяют системам отслеживать траектории, анализировать поведение и понимать взаимодействия. Эта способность имеет основополагающее значение для современного понимания видео и позволяет машинам воспринимать непрерывность в меняющейся среде.
Большинство современных систем слежения работают по принципу «слежения по обнаружению». Этот подход разделяет процесс на два основных этапа: идентификация того, что находится в кадре, а затем сопоставление этих результатов с известными объектами из прошлого.
Хотя терминология схожа, отслеживание нескольких объектов (MOT) значительно отличается от отслеживания одного объекта (SOT). SOT фокусируется на слежении за одной конкретной целью, инициализированной в первом кадре, часто игнорируя все другие объекты. В отличие от этого, MOT должен обрабатывать неизвестное и изменяющееся количество целей, которые могут входить в сцену или покидать ее в любой момент времени. Это делает MOT более требовательным с точки зрения вычислений, так как он требует надежной логики для обработки track и окончания track , а также сложных взаимодействий между несколькими движущимися объектами.
Возможность track объектов одновременно стимулирует инновации в нескольких крупных отраслях промышленности.
Ultralytics внедрение отслеживания с помощью современных моделей.
track() метод плавно интегрирует логику обнаружения и отслеживания, поддерживая такие алгоритмы, как
ByteTrack и
BoT-SORT. Пример ниже демонстрирует
отслеживание транспортных средств на видео с использованием рекомендуемого
Модель YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
Несмотря на достигнутые успехи, MOT остается сложной областью. Основной трудностью является окклюзия: когда объекты пересекаются или скрываются за препятствиями, сохранить их идентичность становится сложно. Переполненные сцены, такие как оживленный марафон или стая птиц, проверяют на прочность алгоритмы ассоциации данных. Кроме того, для поддержания скорости вывода в реальном времени при обработке видеопотоков высокого разрешения требуются эффективные архитектуры моделей и зачастую специализированное оборудование, такое как устройства NVIDIA .
Для решения этих задач исследователи изучают сквозные подходы глубокого обучения, которые объединяют обнаружение и отслеживание в единую сеть, а также используют Ultralytics для аннотирования сложных наборов данных и обучения надежных пользовательских моделей.