Улучшение прогнозирования столкновений с помощью Ultralytics YOLO

Несмотря на осторожность на дороге, несчастные случаи все равно могут произойти. Автомобиль меняет полосу движения, пешеход перебегает дорогу или велосипедист ускоряется без предупреждения. Эти повседневные моменты - пример того, как системы прогнозирования столкновений могут принести реальную пользу и помочь сохранить всех в безопасности.

Ранее мы рассматривали предсказание траектории полета мяча и видели, как прогнозирование траектории быстро движущегося мяча помогает спортивным аналитикам понять движение и предугадать, что произойдет дальше. Прогнозирование столкновений работает аналогичным образом.

Эти системы прогнозирования, по сути, заглядывают в будущее. Наблюдая за тем, как движутся автомобили и пешеходы, они могут заблаговременно выявить риски и скорректировать траекторию движения или поведение до того, как ситуация примет опасный оборот (так называемое планирование движения или планирование пути).

Ключевыми компьютерными технологиями, лежащими в основе систем предсказания столкновений, являются искусственный интеллект и его области, такие как компьютерное зрение и методы прогнозирования, которые помогают предсказать, как будут двигаться предметы. Например, модели компьютерного зрения, такие как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics YOLO26, могут использоваться для detect и track объектов, таких как транспортные средства и пешеходы, в режиме реального времени, а модели прогнозирования используют эти данные для оценки их следующего движения.

Рис. 1. Пример использования YOLO11 для detect объектов на дороге(Источник).

‍

В результате мы получаем систему искусственного интеллекта, которая понимает, что происходит вокруг нее, и поддерживает принятие более разумных решений в динамичных средах. В этой статье мы рассмотрим, как работает прогнозирование столкновений, какие методы лежат в его основе и какую роль в этом процессе могут сыграть компьютерное зрение и модели Ultralytics YOLO . Давайте начнем!

Что такое прогнозирование столкновений?

Прогнозирование столкновений - это способность системы искусственного интеллекта понимать, как движутся объекты, и предвидеть, когда они могут сблизиться или столкнуться. Различные системы могут использовать эту информацию по-разному, включая поддержку функций безопасности, оптимизацию движения или координацию действий в общем пространстве.

Везде, где объекты перемещаются в общем пространстве, будь то автомобили на шоссе, погрузчики в складском проходе или пешеходы, переходящие улицу, прогнозирование столкновений помогает системам понять, как может развиваться это взаимодействие. В приложениях, ориентированных на безопасность, такое прогнозирование может использоваться для снижения риска, а в других ситуациях - для решения таких задач, как планирование маршрутов, выбор времени или координация движения.

Например, во многих новых автомобилях, оснащенных передовыми системами помощи водителю, или ADAS, камеры и датчики следят за дорогой впереди и оценивают, насколько быстро автомобиль приближается к близлежащим объектам. Если система обнаруживает, что ситуация может стать небезопасной, она предупреждает водителя, и в некоторых случаях автоматическое торможение может помочь уменьшить последствия столкновения.

Изучение четырех этапов прогнозирования столкновений

Прогнозирование столкновений - это скоординированный процесс, в котором различные компоненты ИИ работают вместе, чтобы идентифицировать объекты, проследить за их движением и оценить, что может произойти дальше. Обычно такие системы проходят четыре взаимосвязанных этапа: обнаружение объекта, отслеживание объекта, прогнозирование траектории и, наконец, предсказание столкновения, причем каждый этап основывается на точности предыдущего.

Далее рассмотрим подробнее, как работает каждый этап.

Обнаружение объектов

Обнаружение объектов - это основная задача компьютерного зрения, в которой модели искусственного интеллекта идентифицируют и определяют местоположение объектов в изображении или видеокадре. Анализируя пиксельные данные, модель обнаружения объектов может выдать три основных результата: ограничительные рамки, классы объектов и баллы доверия. Граничные поля показывают, где находится объект, классы объектов указывают, что это за объект, например автомобиль, пешеход или велосипедист, а баллы уверенности отражают, насколько модель уверена в своем прогнозе.

Модели ИИ для зрения, такие как YOLO11 и YOLO26, опираются на этот фундамент и поддерживают несколько смежных задач, включая обнаружение объектов, отслеживание объектов и определение ориентированных ограничительных рамок (OBB). Обнаружение объектов позволяет системе предсказания определить, что находится в каждом кадре, отслеживание следит за перемещением объектов, а ориентированные ограничительные рамки обеспечивают более точные формы для объектов, которые появляются под разными углами.

На этом этапе система предсказания столкновений сосредоточена исключительно на понимании того, что присутствует в визуальных данных. Она формирует базовый слой информации, от которого зависят все последующие шаги, но еще не учитывает, как объекты будут двигаться или взаимодействовать.

Обзор системы отслеживания объектов

Как только объекты обнаружены, следующим шагом будет их track по кадрам, чтобы система могла понять, как они перемещаются во времени. В то время как обнаружение обеспечивает новые ограничительные рамки в каждом кадре, отслеживание объектов добавляет непрерывность, связывая эти обнаружения во времени.

Алгоритмы отслеживания, поддерживаемые пакетомUltralytics Python , такие как ByteTrack или BoT-SORT, работают с моделями типа YOLO11 , используя данные обнаружения из каждого кадра для отслеживания объектов по мере их перемещения. Эти алгоритмы присваивают каждому объекту уникальный идентификатор и используют его для сохранения идентичности, даже когда объект быстро перемещается или становится частично скрытым. Таким образом, создается плавная история слежения, фиксирующая перемещение объекта.

Рис. 2. Присвоение уникальных идентификаторов различным обнаружениям с помощью YOLO (Источник)

‍

Вот краткий обзор того, как работают эти два метода отслеживания:

ByteTrack: Он использует как высоко-, так и низкодостоверные обнаружения для поддержания стабильных идентификаторов объектов, а прогнозы движения, полученные с помощью фильтра Калмана, помогают трекеру сохранять стабильность, когда объекты быстро перемещаются или их сложно detect на короткое время.
BoT-SORT: Этот алгоритм расширяет SORT, объединяя предсказания движения фильтра Калмана с подсказками о внешнем виде, что позволяет трекеру более надежно следить за объектами в переполненных сценах или при частичной окклюзии.

Чтобы определить, насколько хорошо работают эти методы отслеживания, исследователи оценивают их на установленных наборах данных и эталонах многообъектного отслеживания (MOT). Также обычно используются такие метрики, как точность отслеживания нескольких объектов (MOTA), которая отражает общее качество отслеживания; оценка идентификации F1 (IDF1), которая измеряет, насколько последовательно сохраняется идентичность объектов; и точность отслеживания высшего порядка (HOTA), которая предлагает сбалансированный взгляд как на эффективность обнаружения, так и на точность ассоциации.

Понимание прогнозирования траектории

После отслеживания объекта по нескольким кадрам необходимо предсказать, куда он направится в следующий момент. Это называется прогнозированием траектории. В то время как обнаружение находит объекты и отслеживание следит за их перемещением, прогнозирование смотрит вперед и оценивает их будущее положение.

Информация, полученная в результате обнаружения и отслеживания, такая как ограничительная рамка объекта, его положение в разных кадрах и присвоенный идентификатор, может быть использована для расчета таких характеристик движения, как скорость, направление и характер движения. Эти сведения дают модели прогнозирования данные, необходимые для оценки того, где объект может оказаться в ближайшие несколько секунд.

В случаях, когда данные слежения содержат пробелы или резкие скачки, методы интерполяции помогают восстановить более гладкие и последовательные траектории. Таким образом, модель прогнозирования получает высококачественные данные о движении, а не зашумленные или неполные данные о положении.

Рис. 3. Визуализация прогнозирования траектории движения автомобиля.(Источник)

‍

Чтобы делать такие прогнозы, многие системы используют модели глубокого обучения, которые предназначены для понимания того, как движение объекта меняется со временем. Анализируя последовательности прошлых положений и полученные из них характеристики движения, эти модели изучают общие шаблоны движения и используют эти знания для прогнозирования будущих траекторий.

Вот некоторые часто используемые подходы глубокого обучения и машинного обучения для прогнозирования траекторий:

Рекуррентные нейронные сети (РНС): RNN - это модели глубокого обучения, предназначенные для работы с последовательностями, такими как серия видеокадров. Они могут запоминать предыдущие позиции и использовать эту информацию, чтобы понять, как двигался объект. Это помогает системе распознавать простые модели движения, такие как ускорение, замедление или движение по прямой.

Сети долговременной кратковременной памяти (LSTM): LSTM - это более продвинутый тип RNN, способный запоминать информацию на более длительный срок. Это позволяет им улавливать более сложные движения, такие как подготовка автомобиля к повороту или смена направления движения пешехода. Поскольку они могут track более длительные тенденции, они часто дают более надежные прогнозы в оживленных средах.

Трансформеры: Transformers обрабатывают полные последовательности движений и используют внимание, чтобы сосредоточиться на самых важных деталях этих последовательностей. Это делает их особенно эффективными в сценах, где взаимодействуют несколько объектов, например, сливающиеся автомобили или переходящие дорогу пешеходы.

Эти модели могут предсказывать как краткосрочные, так и долгосрочные траектории. Краткосрочные прогнозы, обычно не превышающие двух секунд, как правило, наиболее точны, в то время как прогнозы на более длительные промежутки времени, например от двух до шести секунд, обеспечивают большее предвидение, но сопровождаются большей неопределенностью.

Соберите все воедино: Алгоритмы обнаружения столкновений

На последнем этапе, предсказании столкновения, система использует все, что узнала до этого: что представляет собой каждый объект (обнаружение), как он двигался (отслеживание) и куда он, скорее всего, направится в следующий момент (прогнозирование). На этом этапе проверяется, не пересекаются ли какие-либо из прогнозируемых траекторий, что может привести к столкновению.

Рис. 4. Как работает система прогнозирования столкновений(Источник)

‍

В случае с автономными автомобилями система контроля столкновений сравнивает будущие траектории движения близлежащих объектов, таких как автомобили, пешеходы и велосипедисты. Если две прогнозируемые траектории пересекаются или опасно сближаются, система отмечает ситуацию как потенциальное столкновение транспортных средств. Чтобы понять, насколько серьезным может быть риск столкновения, система также рассчитывает значение, известное как время до столкновения.

Время до столкновения (TTC) - ключевое измерение в быстро движущихся средах. Оно определяет, сколько времени пройдет до столкновения двух объектов, если они продолжат движение с текущими скоростями и направлениями. Если TTC падает ниже определенного порога, система может отреагировать на это, выдав предупреждение, задействовав тормоза или скорректировав запланированную траекторию.

Применение прогнозирования столкновений в реальном мире

Прогнозирование столкновений приобретает решающее значение во многих отраслях, включая управление дорожным движением, инфраструктуру "умного города", промышленную автоматизацию и мобильную робототехнику. По мере развития современных моделей компьютерного зрения и прогнозирования эти системы становятся все более способными предвидеть движение.

Теперь, когда мы лучше понимаем, как работают прогнозирование столкновений и прогнозирование траектории, давайте рассмотрим несколько интересных исследований, которые демонстрируют, как эти методы могут использоваться в различных реальных условиях.

Прогнозирование столкновений YOLO для аварийных автономных автомобилей

Навигация в переполненной, непредсказуемой среде - одна из самых сложных задач для автономных систем, особенно когда пешеходы двигаются не по четким схемам. Автомобили экстренной помощи сталкиваются с этой проблемой еще чаще, поскольку им приходится быстро перемещаться на высоких скоростях по плотным общественным пространствам, не полагаясь на структурированные дороги, разметку полос движения или предсказуемое поведение пешеходов.

В подобных сценариях понимание того, где находятся люди и как они могут двигаться в ближайшие несколько секунд, становится крайне важным для предотвращения аварий. Например, в недавнем исследовании эта задача была решена путем создания полного конвейера прогнозирования столкновений для аварийного автономного автомобиля (EAV), работающего в среде с большим количеством пешеходов.

Как работает конвейер предсказания столкновений YOLO

Вот взгляд на то, как работает эта методология:

Обнаружение пешеходов с помощью YOLO: детектор YOLO идентифицирует пешеходов в каждом кадре камеры и выводит ограничительные рамки для каждого видимого человека.
‍
Отслеживание движения с помощью ByteTrack: Алгоритм ByteTrack связывает эти обнаружения в разных кадрах, присваивая каждому пешеходу постоянный идентификатор и создавая историю движения, которая показывает, как он перемещается с течением времени.
‍
Оценка положения в реальном мире: Inverse Perspective Mapping (IPM) преобразует 2D-координаты пикселей в приблизительное положение в плоскости земли, помогая системе понять, где находятся пешеходы в реальном пространстве по отношению к автомобилю.
‍
Создание вида с высоты птичьего полета с помощью cGAN: условный GAN, модель искусственного интеллекта, которая переводит один формат изображения в другой, создает представление сцены с высоты птичьего полета. Такая схема сверху вниз облегчает интерпретацию положения пешеходов и их окружения.
‍
Предсказание траектории движения с помощью LSTM-модели: Используя прошлые позиции и модели движения каждого пешехода, LSTM-модель предсказывает, куда он, скорее всего, двинется в ближайшие несколько секунд.
‍
Эффективное обнаружение столкновений с помощью конусов столкновения: Прогнозируемые траектории сравниваются с помощью метода конусов столкновения, который определяет, пересекаются ли траектории движения автомобиля и пешехода.
‍
Избежание столкновений с помощью сигналов: Если система прогнозирует столкновение, то в оптимальный момент она активирует звуковой сигнал (например, клаксон или звонок). Время выбирается таким образом, чтобы повлиять на поведение пешеходов и дать им возможность ускориться или замедлиться и добраться до безопасного места.

Обеспечение безопасности пешеходов в городах с помощью краевого зрения и YOLO

Другой подход к предотвращению столкновений не ограничивается транспортными средствами, а фокусируется на самой инфраструктуре. Вместо того чтобы полагаться на датчики внутри автомобиля, этот метод использует интеллектуальные камеры, установленные на пешеходных переходах и перекрестках, чтобы следить за движением пешеходов и транспортных средств в режиме реального времени. Эти места часто непредсказуемы: люди могут внезапно выйти на дорогу, велосипедисты могут пробираться сквозь поток машин, а водители не всегда успевают затормозить, поэтому выявление рисков на ранней стадии жизненно важно.

В одном интересном исследовании эта идея рассматривалась на примере системы под названием NAVIBox- устройства краевого обзора, предназначенного для прогнозирования риска столкновения транспортных средств и пешеходов непосредственно на перекрестке. Система использует Ultralytics YOLOv8 модель для detect пешеходов и транспортных средств, а легкий центроидный трекер - для их отслеживания по кадрам. Таким образом, создаются короткие и надежные истории движения, которые затем уточняются с помощью трансформации перспективы, преобразующей угловой вид CCTV в более четкую схему дороги с высоты птичьего полета.

По этим уточненным траекториям NAVIBox может оценить, как участники дорожного движения будут двигаться в ближайшие несколько секунд, и проверить, могут ли их пути пересечься (это также называется тестом на пересечение). Если система обнаруживает рискованное взаимодействие, она немедленно отправляет предупреждения через дисплеи для водителей и динамики для пешеходов - без использования удаленного сервера или сетевого соединения. Тестирование в реальных городских условиях показало, что NAVIBox работает достаточно быстро для реагирования в реальном времени и может точно определять потенциальные сценарии столкновений, что делает его практичным инструментом безопасности для оживленных городских перекрестков.

Рис. 5. Прогнозирование риска столкновения транспортных средств с пешеходами.(Источник)

‍

Плюсы и минусы обнаружения и прогнозирования столкновений

Вот некоторые преимущества использования систем прогнозирования столкновений на основе искусственного интеллекта:

Улучшение ситуационной осведомленности: Системы искусственного интеллекта постоянно отображают перемещение объектов в окружающей среде, обеспечивая более глубокое понимание масштабных потоков людей, поведения транспорта или траекторий движения машин.
‍
Основанные на данных выводы для долгосрочного планирования: Регистрируя обнаружения, пропуски и схемы движения, системы искусственного интеллекта предоставляют аналитику, которую городские планировщики, команды по безопасности и операторы автопарков могут использовать для перепланировки перекрестков, улучшения знаков или уточнения эксплуатационной политики.

Экономически эффективное предотвращение рисков: Обнаруживая риски до их нарастания, эти системы позволяют избежать дорогостоящих аварий, страховых случаев или ремонта оборудования.

Несмотря на свои преимущества, системы без столкновений также имеют определенные ограничения. Вот несколько проблем, которые следует учитывать:

Ограничения, связанные с размещением датчиков и камер: Плохо расположенные или наклоненные камеры могут искажать размер или расстояние до объекта, что делает оценку глубины и предсказание траектории менее надежными.
‍
Окклюзия: Объекты могут быть частично или полностью скрыты за другими. Это затрудняет отслеживание объекта, поскольку модель теряет визуальную непрерывность.
‍
Условия окружающей среды: Слабое освещение, яркий солнечный свет, дождь, туман или плохое качество камеры могут снизить способность модели четко видеть сцену, что скажется на точности.

Основные выводы

Прогнозирование столкновений объединяет две мощные возможности: компьютерное зрение, позволяющее системам понимать, что происходит в окружающей среде в данный момент, и прогнозирование траектории, помогающее им предвидеть, что может произойти в следующий момент.

Объединив эти возможности, машины могут detect движущиеся объекты в реальном времени и предсказывать их взаимодействие в ближайшие секунды. По мере развития компьютерного зрения и методов прогнозирования предсказание столкновений, вероятно, станет ключевым фактором для создания более безопасных, надежных и масштабируемых автономных систем.

Ознакомьтесь с нашим сообществом и репозиторием GitHub, чтобы узнать больше об искусственном интеллекте. Ознакомьтесь с такими приложениями, как ИИ в здравоохранении и компьютерное зрение в производстве, на страницах наших решений. Узнайте о наших вариантах лицензирования и начните создавать уже сегодня!

Улучшение прогнозирования столкновений с помощью моделей Ultralytics YOLO

Что такое прогнозирование столкновений?