Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Слежение за несколькими объектами (MOT)

Изучите многообъектное отслеживание (MOT) в компьютерном зрении. Узнайте, как detect track с помощью Ultralytics для автономного вождения, розничной торговли и других областей.

Отслеживание нескольких объектов (MOT) — это динамическая задача в компьютерном зрении (CV), которая включает в себя обнаружение нескольких отдельных объектов в видеопотоке и сохранение их идентичности с течением времени. В отличие от стандартного обнаружения объектов, при котором каждый кадр рассматривается как изолированный снимок, MOT вводит временное измерение в искусственный интеллект (AI). Путем присвоения уникального идентификационного номера (ID) каждому обнаруженному объекту — например, конкретному пешеходу в толпе или автомобилю на шоссе — алгоритмы MOT позволяют системам отслеживать траектории, анализировать поведение и понимать взаимодействия. Эта способность имеет основополагающее значение для современного понимания видео и позволяет машинам воспринимать непрерывность в меняющейся среде.

Как работает MOT

Большинство современных систем слежения работают по принципу «слежения по обнаружению». Этот подход разделяет процесс на два основных этапа: идентификация того, что находится в кадре, а затем сопоставление этих результатов с известными объектами из прошлого.

  1. Обнаружение: в каждом кадре высокопроизводительная модель, такая как YOLO26, сканирует изображение для обнаружения объектов, генерируя ограничительные рамки и вероятности классов.
  2. Прогнозирование движения: чтобы предсказать, куда объект двинется дальше, алгоритмы часто используют фильтр Калмана. Этот математический инструмент оценивает состояние динамической системы, например скорость и положение, помогая сузить область поиска в последующем кадре.
  3. Ассоциация данных: система сопоставляет новые обнаружения с существующими треками. Методы оптимизации, такие как венгерский алгоритм, решают эту задачу путем минимизации затрат на сопоставление, часто опираясь на пересечение над объединением (IoU) для измерения пространственного перекрытия.
  4. Повторная идентификация (ReID): при возникновении визуальных препятствий, известных как окклюзия, передовые трекеры используют визуальные вложения для распознавания объекта, когда он появляется снова. Это помогает предотвратить «смену идентификатора», гарантируя, что система знает, что автомобиль, выезжающий из туннеля, является тем же самым, что и въехал в него.

Отличие MOT от отслеживания одного объекта

Хотя терминология схожа, отслеживание нескольких объектов (MOT) значительно отличается от отслеживания одного объекта (SOT). SOT фокусируется на слежении за одной конкретной целью, инициализированной в первом кадре, часто игнорируя все другие объекты. В отличие от этого, MOT должен обрабатывать неизвестное и изменяющееся количество целей, которые могут входить в сцену или покидать ее в любой момент времени. Это делает MOT более требовательным с точки зрения вычислений, так как он требует надежной логики для обработки track и окончания track , а также сложных взаимодействий между несколькими движущимися объектами.

Применение в реальном мире

Возможность track объектов одновременно стимулирует инновации в нескольких крупных отраслях промышленности.

  • Автономное вождение: Автомобили с автономным управлением в значительной степени полагаются на MOT для безопасного перемещения. Отслеживая пешеходов, велосипедистов и другие транспортные средства, автономные системы могут предсказывать их будущее положение , чтобы избежать столкновений. Для обеспечения максимальной надежности часто используется объединение данных с камер и датчиков LiDAR.
  • Аналитика розничной торговли: в физических магазинах ритейлеры используют ИИ в розничной торговле для отображения путей движения покупателей. Алгоритмы MOT генерируют тепловые карты движения посетителей, помогая менеджерам оптимизировать планировку магазина и улучшить управление очередями в часы пик.
  • Спортивная аналитика: профессиональные команды используют MOT для анализа движений игроков и построений команд. Отслеживая каждого игрока на поле, тренеры могут получать подробные показатели скорости, пройденного расстояния и тактического положения с помощью методов оценки положения.

Реализация MOT с помощью Python

Ultralytics внедрение отслеживания с помощью современных моделей. track() метод плавно интегрирует логику обнаружения и отслеживания, поддерживая такие алгоритмы, как ByteTrack и BoT-SORT. Пример ниже демонстрирует отслеживание транспортных средств на видео с использованием рекомендуемого Модель YOLO26.

from ultralytics import YOLO

# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")

# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)

# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
    print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")

Проблемы при отслеживании нескольких объектов

Несмотря на достигнутые успехи, MOT остается сложной областью. Основной трудностью является окклюзия: когда объекты пересекаются или скрываются за препятствиями, сохранить их идентичность становится сложно. Переполненные сцены, такие как оживленный марафон или стая птиц, проверяют на прочность алгоритмы ассоциации данных. Кроме того, для поддержания скорости вывода в реальном времени при обработке видеопотоков высокого разрешения требуются эффективные архитектуры моделей и зачастую специализированное оборудование, такое как устройства NVIDIA .

Для решения этих задач исследователи изучают сквозные подходы глубокого обучения, которые объединяют обнаружение и отслеживание в единую сеть, а также используют Ultralytics для аннотирования сложных наборов данных и обучения надежных пользовательских моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас