Сравнение моделей YOLO : YOLOv11 по сравнению с предыдущей

От автоматизации повседневных задач до помощи в принятии обоснованных решений в режиме реального времени, искусственный интеллект (ИИ) преобразует будущее различных отраслей. Одной из особенно интересных областей ИИ является компьютерное зрение, также известное как Vision AI. Оно фокусируется на том, чтобы научить машины анализировать и интерпретировать визуальные данные так, как это делают люди.

В частности, модели компьютерного зрения являются движущей силой инноваций, повышающих безопасность и эффективность. Например, эти модели используются в самоуправляемых автомобилях для detect пешеходов и в камерах безопасности для круглосуточного наблюдения за помещениями.

Одними из самых известных моделей компьютерного зрения являются модели YOLO (You Only Look Once), известные своими возможностями обнаружения объектов в реальном времени. С течением времени модели YOLO совершенствовались, каждая новая версия предлагала более высокую производительность и большую гибкость.

Более новые версии, такие как Ultralytics YOLO11 могут решать самые разные задачи, такие как сегментация экземпляров, классификация изображений, оценка позы и отслеживание нескольких объектов, с большей точностью, скоростью и аккуратностью, чем когда-либо прежде.

В этой статье мы сравним Ultralytics YOLOv8YOLOv9, YOLOv10 и Ultralytics YOLO11 , чтобы получить представление о том, как развивались эти модели. Мы проанализируем их ключевые особенности, результаты бенчмарков и различия в производительности. Давайте начнем!

Обзор Ultralytics YOLOv8

YOLOv8, выпущенная компанией Ultralytics 10 января 2023 года, стала большим шагом вперед по сравнению с предыдущими моделями YOLO . Она оптимизирована для точного обнаружения в режиме реального времени и сочетает в себе проверенные подходы с инновационными обновлениями для достижения лучших результатов.

Не ограничиваясь обнаружением объектов, он также поддерживает следующие задачи компьютерного зрения: сегментацию объектов, оценку позы, обнаружение объектов с ориентированными границами (OBB) и классификацию изображений. Еще одной важной особенностью YOLOv8 является то, что он доступен в пяти различных вариантах моделей - Nano, Small, Medium, Large и X, - так что вы можете выбрать оптимальный баланс скорости и точности в зависимости от ваших потребностей.

Благодаря своей универсальности и высокой производительности YOLOv8 может использоваться во многих реальных приложениях, таких как системы безопасности, "умные города", здравоохранение и промышленная автоматизация.

__wf_reserved_inherit — Рис. 1. Управление парковками в умных городах с помощью YOLOv8.

‍

Ключевые особенности YOLOv8

Вот более подробный обзор некоторых других ключевых особенностей YOLOv8:

Улучшенная архитектура обнаружения: В YOLOv8 используется улучшенная магистраль CSPDarknet. Эта основа оптимизирована для извлечения признаков - процесса идентификации и захвата важных паттернов или деталей из входных изображений, которые помогают модели делать точные прогнозы.
Детекционная головка: В ней используется anchor-free (без привязки к якорям), разделенная конструкция, что означает, что она не полагается на заданные формы ограничивающих рамок (якоря), а вместо этого учится предсказывать местоположение объектов напрямую. Благодаря разделенной структуре задачи классификации объекта и прогнозирования его местоположения (регрессия) решаются отдельно, что помогает повысить точность и ускорить обучение.
Баланс между точностью и скоростью: Эта модель обеспечивает впечатляющую точность, сохраняя при этом высокую скорость inference, что делает ее подходящей как для облачных, так и для edge-сред.
Удобство использования: YOLOv8 разработан так, чтобы с ним было легко начать работать - вы можете начать прогнозировать и видеть результаты всего за несколько минут, используя пакетUltralytics Python .

YOLOv9 фокусируется на вычислительной эффективности

YOLOv9 был выпущен 21 февраля 2024 года Чиен-Яо Вангом и Хонг-Юаном Марком Ляо из Института информационных наук, Academia Sinica, Тайвань. Он поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Эта модель основана на Ultralytics YOLOv5 и вводит два основных новшества: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN).

PGI помогает YOLOv9 сохранять важную информацию при обработке данных через слои, что приводит к более точным результатам. В то же время GELAN улучшает использование моделью своих слоев, повышая производительность и эффективность вычислений. Благодаря этим усовершенствованиям YOLOv9 может решать задачи реального времени на пограничных устройствах и в мобильных приложениях, где вычислительные ресурсы часто ограничены.

‍

Ключевые особенности YOLOv9

Вот взгляд на некоторые другие ключевые особенности YOLOv8:

Высокая точность и эффективность: YOLOv9 обеспечивает высокую точность обнаружения, не потребляя много вычислительной мощности, что делает его отличным выбором при ограниченных ресурсах.
‍
Легкие модели: Облегченные варианты моделей YOLOv9оптимизированы для развертывания на границе и в мобильных сетях.
‍
Простота использования: YOLOv9 поддерживается пакетом Ultralytics Python , поэтому его легко настроить и запустить в различных средах, независимо от того, используете ли вы код или командную строку.

YOLOv10 позволяет обнаруживать объекты NMS

YOLOv10 была представлена 23 мая 2024 года исследователями из Университета Цинхуа и ориентирована на обнаружение объектов в реальном времени. В ней устранены недостатки предыдущих версий YOLO путем устранения необходимости в не максимальном подавленииNMS), этапе постобработки, используемом для устранения дублирующих обнаружений, и усовершенствования общего дизайна модели. Это позволяет быстрее и эффективнее обнаруживать объекты, сохраняя при этом современную точность.

Важнейшая часть того, что делает это возможным, - подход к обучению, известный как последовательное назначение двух меток. В нем сочетаются две стратегии: одна позволяет нескольким прогнозам учиться на одном и том же объекте (one-to-many), а другая нацелена на выбор лучшего единственного прогноза (one-to-one). Поскольку обе стратегии следуют одним и тем же правилам сопоставления, модель самостоятельно учится избегать дубликатов, поэтому NMS не требуется.

‍

В архитектуре YOLOv10также используется улучшенная магистраль CSPNet для более эффективного изучения особенностей и горловина PAN (Path Aggregation Network), которая объединяет информацию с разных уровней, что позволяет лучше обнаруживать как мелкие, так и крупные объекты. Эти усовершенствования позволяют использовать YOLOv10 для реальных приложений в производстве, розничной торговле и автономном вождении.

Ключевые особенности YOLOv10

Вот некоторые другие отличительные особенности YOLOv10:

Свёртки с большими ядрами: Модель использует свёртки с большими ядрами, чтобы захватывать больше контекста из более широких областей изображения, помогая ей лучше понимать общую сцену.
‍
Модули частичного самовнимания: Модель включает модули частичного самовнимания, чтобы сосредоточиться на наиболее важных частях изображения, не используя слишком много вычислительной мощности, что эффективно повышает производительность.

Уникальный вариант модели: Наряду с обычными размерами YOLOv10 - Nano, Small, Medium, Large и X - существует специальная версия под названием YOLOv10b (Balanced). Это более широкая модель, что означает, что она обрабатывает больше функций на каждом слое, что помогает повысить точность, сохраняя баланс между скоростью и размером.
‍
Удобство использования: YOLOv10 совместим с пакетом Ultralytics Python , что делает его простым в использовании.

Ultralytics YOLO11: повышенная скорость и точность

В этом году, 30 сентября, Ultralytics официально представила YOLO11 - одну из последних моделей серии YOLO - на своем ежегодном гибридном мероприятии YOLO Vision 2024 (YV24).

В этом выпуске представлены значительные улучшения по сравнению с предыдущими версиями. YOLO11 стал быстрее, точнее и эффективнее. Он поддерживает весь спектр задач компьютерного зрения, знакомых пользователям YOLOv8 , включая обнаружение объектов, сегментацию объектов и классификацию изображений. Также поддерживается совместимость с рабочими процессами YOLOv8 , что облегчает пользователям плавный переход на новую версию.

Кроме того, YOLO11 разработана для удовлетворения широкого спектра вычислительных потребностей - от легких пограничных устройств до мощных облачных систем. Модель доступна как в виде версии с открытым исходным кодом, так и в виде корпоративной версии, что позволяет адаптировать ее для различных случаев использования.

Это отличный вариант для задач, требующих высокой точности, таких как медицинская визуализация и спутниковое обнаружение, а также для более широкого применения в автономных транспортных средствах, сельском хозяйстве и здравоохранении.

‍

Ключевые особенности YOLO11

Вот некоторые из других уникальных особенностей YOLO11:

Быстрое и эффективное обнаружение: YOLO11 оснащен головкой обнаружения, рассчитанной на минимальную задержку, что позволяет сконцентрировать внимание на скорости в последних слоях предсказания без ущерба для производительности.
‍
Улучшенное извлечение признаков: Оптимизированная архитектура backbone и neck улучшает извлечение признаков, что приводит к более точным прогнозам.
‍
Бесшовное развертывание на разных платформах: YOLO11 оптимизирован для эффективной работы на пограничных устройствах, облачных платформах и графических процессорах NVIDIA , что обеспечивает адаптивность в различных средах.

Сравнительный анализ моделей YOLO на наборе данных COCO

При изучении различных моделей не всегда легко сравнить их, просто взглянув на их характеристики. Именно здесь на помощь приходит бенчмаркинг. Запустив все модели на одном и том же наборе данных, мы можем объективно измерить и сравнить их производительность. Давайте посмотрим, как каждая модель работает на наборе данныхCOCO .

Если сравнивать модели YOLO , то каждая новая версия приносит заметные улучшения в отношении точности, скорости и гибкости. В частности, YOLO11m демонстрирует значительный скачок, поскольку использует на 22 % меньше параметров, чем YOLOv8m, а значит, легче и быстрее в работе. Кроме того, несмотря на меньший размер, модель достигает более высокой средней точностиmAP) на наборе данных COCO . Эта метрика измеряет, насколько хорошо модель обнаруживает и локализует объекты, поэтому более высокая mAP означает более точные прогнозы.

‍

Тестирование и сравнение моделей YOLO на видео

Давайте рассмотрим, как эти модели работают в реальной ситуации.

Чтобы сравнить YOLOv8, YOLOv9, YOLOv10 и YOLO11, все четыре модели были запущены на одном и том же дорожном видео с использованием балла доверия 0,3 (модель отображает обнаружения только в том случае, если она уверена, что правильно идентифицировала объект, по крайней мере, на 30%) и размера изображения 640 для справедливой оценки. Результаты обнаружения и отслеживания объектов выявили ключевые различия в точности обнаружения, скорости и точности.

С первого кадра YOLO11 уловил крупные транспортные средства, такие как грузовики, которые YOLOv10 пропустил. YOLOv8 и YOLOv9 показали достойные результаты, но они зависели от условий освещения и размера объекта. Маленькие, удаленные автомобили оставались проблемой для всех моделей, хотя YOLO11 продемонстрировал заметное улучшение в обнаружении и этих объектов.

‍

Что касается скорости, то все модели работали в диапазоне от 10 до 20 миллисекунд на кадр, что достаточно быстро для выполнения задач в реальном времени при частоте более 50 кадров в секунду. С одной стороны, YOLOv8 и YOLOv9 обеспечивали стабильное и надежное обнаружение на протяжении всего видео. Интересно, что YOLOv10, рассчитанный на меньшую задержку, работал быстрее, но демонстрировал некоторые несоответствия при обнаружении определенных типов объектов.

YOLO11, напротив, выделялся своей точностью, предлагая сильный баланс между скоростью и точностью. Хотя ни одна из моделей не показала идеальных результатов в каждом кадре, сравнение бок о бок показало, что YOLO11 продемонстрировал наилучшую общую производительность.

Какая модель YOLO лучше всего подходит для задач компьютерного зрения?

Выбор модели для проекта зависит от его конкретных требований. Например, в некоторых приложениях может быть приоритетной скорость, в то время как другие могут требовать более высокой точности или сталкиваться с ограничениями развертывания, которые влияют на решение.

Еще один важный фактор - тип задач компьютерного зрения, которые вам необходимо решать. Если вы ищете более широкую гибкость для решения различных задач, YOLOv8 и YOLO11 - хорошие варианты.

Выбор YOLOv8 или YOLO11 зависит от ваших потребностей. YOLOv8 - отличный вариант, если вы новичок в компьютерном зрении и цените большое сообщество, больше учебников и обширные сторонние интеграции.

С другой стороны, если вы ищете передовую производительность с высокой точностью и скоростью, YOLO11 - лучший выбор, хотя он поставляется с меньшим сообществом и меньшим количеством интеграций из-за того, что это более новая версия.

Основные выводы

Начиная с Ultralytics YOLOv8 и заканчивая Ultralytics YOLO11, эволюция серии моделей YOLO отражает последовательное продвижение к более интеллектуальным моделям компьютерного зрения. Каждая версия YOLO приносит значительные улучшения в плане скорости, точности и аккуратности.

По мере развития компьютерного зрения эти модели предлагают надежные решения реальных задач - от обнаружения объектов до автономных систем. Постоянное развитие моделей YOLO показывает, как далеко продвинулась эта область и как много нового мы можем ожидать в будущем.

Чтобы узнать больше об ИИ, посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Откройте для себя достижения в различных отраслях, от Vision AI в производстве до компьютерного зрения в здравоохранении. Ознакомьтесь с нашими вариантами лицензирования, чтобы начать свои проекты в области Vision AI уже сегодня.

Сравнение Ultralytics YOLO11 с предыдущими моделями YOLO