Слежение за несколькими объектами (MOT)
Изучите многообъектное отслеживание (MOT): track и повторная идентификация объектов по кадрам видео с помощью YOLO11, фильтров Калмана, сопоставления внешнего вида и современных методов сопоставления данных.
Отслеживание нескольких объектов (MOT) — это сложная функция в
компьютерного зрения (CV) , которая
позволяет системам detect, идентифицировать и отслеживать несколько уникальных объектов в последовательности видеокадров. В отличие от
стандартного обнаружение объектов, которая рассматривает каждый кадр изображения как отдельное событие, MOT вводит временное измерение в
искусственного интеллекта (ИИ). Присваивая постоянный идентификационный номер (ID) каждому обнаруженному объекту — например, конкретному автомобилю в потоке движения или
игроку на спортивной площадке — MOT позволяет алгоритмам сохранять идентичность объектов, когда они движутся, взаимодействуют и даже
временно исчезают за препятствиями. Эта непрерывность является основой современного
понимания видео и
анализа поведения.
Механика систем слежения
Большинство современных систем MOT, включая те, которые работают на базе новейшей технологии
YOLO26, работают по принципу «отслеживание по обнаружению». Этот рабочий процесс основан на цикле обнаружения и
ассоциации, что обеспечивает высокую точности и
минимальное переключение идентификаторов.
-
Обнаружение: в каждом кадре используется высокоскоростная модель, такая как YOLO26 или предыдущее поколение
YOLO11 сканирует сцену для обнаружения объектов,
генерируя ограничительные рамки и вероятности
классов.
-
Прогнозирование движения: чтобы предсказать, куда объект двинется дальше, алгоритмы используют математические
оценки, такие как фильтр Калмана. Это создает
оценку состояния
основанную на скорости и траектории, сужая область поиска для последующего кадра.
-
Ассоциация данных: система сопоставляет новые обнаружения с существующими следами. Методы оптимизации, такие как
венгерский Венгерский алгоритм решают
эту задачу сопоставления путем минимизации «стоимости» сопоставления, часто с использованием
пересечения над объединением (IoU)
для измерения пространственного перекрытия.
-
Повторная идентификация (ReID): при возникновении визуальных препятствий, известных как
окклюзия, передовые трекеры используют визуальные
встраивания для распознавания объекта
при его повторном появлении, сохраняя его исходный идентификатор, а не рассматривая его как новую сущность.
MOT и связанные концепции
Понимание различия между MOT и аналогичным
терминами машинного обучения (ML) терминами имеет
решающее значение для выбора правильного инструмента.
-
vs. Обнаружение объектов: Обнаружение отвечает на вопросы «что и где» в статичном изображении. Если человек
появляется в кадре 1 и кадре 2, детектор видит двух отдельных людей. MOT связывает их, понимая, что это один и тот же
человек, перемещающийся во времени.
-
vs. Отслеживание одного объекта (SOT): SOT фокусируется на отслеживании одной конкретной цели, часто инициализируемой
пользователем вручную, и отслеживает ее, не обращая внимания на другие отвлекающие факторы. MOT является более сложной задачей, так как она должна автономно
detect track , меняющееся количество объектов, входящих в поле зрения и выходящих из него, что требует надежного
управления памятью
.
Применение в реальном мире
Способность преобразовывать видеопотоки в структурированные данные стимулирует инновации во всех отраслях, позволяя
прогнозного моделирования и
автоматизированное принятие решений.
-
Интеллектуальные транспортные системы: В
ИИ в автомобильной секторе ИИ
незаменим для самоуправляемых автомобилей и
инфраструктуры умных городов. Он
позволяет оценку скорости путем
анализа расстояния, которое автомобиль проходит за определенный промежуток времени, и помогает предотвращать аварии, прогнозируя траектории движения
пешеходов и велосипедистов.
-
Аналитика розничной торговли: использование искусственного интеллекта в традиционных магазинах
ИИ в розничной торговле для анализа поведения покупателей.
Применяя MOT для
подсчета объектов, ритейлеры могут создавать тепловые карты проходов с высоким трафиком, отслеживать время пребывания и оптимизировать
управление очередями , чтобы сократить время ожидания
у кассы.
Реализация трекинга с помощью Python
Сайт ultralytics Пакет предоставляет бесшовный интерфейс для MOT, интегрируя мощные алгоритмы, такие как
BoT-SORT и
ByteTrack. Следующий пример демонстрирует, как загрузить модель и track в видеопотоке.
from ultralytics import YOLO
# Load a pre-trained YOLO model (YOLO11n is used here, YOLO26n is also supported)
model = YOLO("yolo11n.pt")
# Perform tracking on a video source
# 'persist=True' ensures tracks are maintained between frames
results = model.track(source="https://youtu.be/LNwODJXcvt4", persist=True, tracker="bytetrack.yaml")
# Visualize the first frame's results with IDs drawn
results[0].show()
Этот простой рабочий процесс автоматически обрабатывает обнаружение, ассоциацию и присвоение идентификаторов, позволяя разработчикам сосредоточиться на
более высокоуровневой логике, такой как
подсчет регионов или поведенческих
триггерах. Для получения более подробной информации о конфигурации обратитесь к
документации по режиму отслеживания.