Сравнение Ultralytics YOLO11 с предыдущими моделями YOLO

Абирами Вина

4 мин. чтения

2 апреля 2025 г.

Сравните Ultralytics YOLOv8, YOLOv9, YOLOv10 и Ultralytics YOLO11, чтобы понять, как развивались и совершенствовались эти модели с 2023 по 2025 год.

От автоматизации повседневных задач до помощи в принятии обоснованных решений в режиме реального времени - искусственный интеллект (ИИ) меняет будущее различных отраслей. Одной из особенно интересных областей ИИ является компьютерное зрение, иначе называемое Vision AI. Она направлена на то, чтобы дать машинам возможность анализировать и интерпретировать визуальные данные так же, как это делают люди. 

В частности, модели компьютерного зрения являются движущей силой инноваций, повышающих безопасность и эффективность. Например, эти модели используются в самоуправляемых автомобилях для обнаружения пешеходов и в камерах безопасности для круглосуточного наблюдения за помещениями. 

Одними из самых известных моделей компьютерного зрения являются модели YOLO (You Only Look Once), известные своими возможностями обнаружения объектов в реальном времени. С течением времени модели YOLO совершенствовались, каждая новая версия предлагала более высокую производительность и большую гибкость.

Новые версии, такие как Ultralytics YOLO11, могут решать различные задачи, такие как сегментация экземпляров, классификация изображений, оценка позы и отслеживание нескольких объектов, с большей точностью, скоростью и точностью, чем когда-либо прежде.

В этой статье мы сравним Ultralytics YOLOv8, YOLOv9, YOLOv10 и Ultralytics YOLO11, чтобы лучше понять, как развивались эти модели. Мы проанализируем их ключевые особенности, результаты бенчмарков и различия в производительности. Давайте начнем!

Обзор Ultralytics YOLOv8

YOLOv8, выпущенная компанией Ultralytics 10 января 2023 года, стала большим шагом вперед по сравнению с предыдущими моделями YOLO. Она оптимизирована для точного обнаружения в режиме реального времени и сочетает в себе проверенные подходы с инновационными обновлениями для достижения лучших результатов.

Не ограничиваясь обнаружением объектов, он также поддерживает следующие задачи компьютерного зрения: сегментацию объектов, оценку позы, обнаружение объектов с ориентированными границами (OBB) и классификацию изображений. Еще одной важной особенностью YOLOv8 является то, что он доступен в пяти различных вариантах моделей - Nano, Small, Medium, Large и X, - так что вы можете выбрать оптимальный баланс скорости и точности в зависимости от ваших потребностей.

Благодаря своей универсальности и высокой производительности YOLOv8 может использоваться во многих реальных приложениях, таких как системы безопасности, "умные города", здравоохранение и промышленная автоматизация.

__wf_reserved_inherit
Рис. 1. Управление парковками в умных городах с помощью YOLOv8.

Ключевые особенности YOLOv8

Вот более подробный обзор некоторых других ключевых особенностей YOLOv8:

  • Улучшенная архитектура обнаружения: В YOLOv8 используется улучшенная магистраль CSPDarknet. Эта основа оптимизирована для извлечения признаков - процесса идентификации и захвата важных паттернов или деталей из входных изображений, которые помогают модели делать точные прогнозы.

  • Головка обнаружения: В ней используется безъякорная, раздельная конструкция, то есть она не полагается на заданные формы ограничительных рамок (якоря), а учится предсказывать местоположение объекта напрямую. Благодаря раздельной схеме задачи классификации объекта и предсказания его местоположения (регрессия) решаются отдельно, что повышает точность и ускоряет обучение.

  • Баланс между точностью и скоростью: эта модель достигает впечатляющей точности при сохранении быстрого времени вывода, что делает ее пригодной для использования как в облачных, так и в пограничных средах.

  • Удобство использования: YOLOv8 разработан так, чтобы с ним было легко начать работать - вы можете начать прогнозировать и видеть результаты всего за несколько минут, используя пакет Ultralytics Python.

YOLOv9 фокусируется на вычислительной эффективности

YOLOv9 был выпущен 21 февраля 2024 года Чиен-Яо Вангом и Хонг-Юаном Марком Ляо из Института информационных наук, Academia Sinica, Тайвань. Он поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров

Эта модель основана на Ultralytics YOLOv5 и представляет собой два основных новшества: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN). 

PGI помогает YOLOv9 сохранять важную информацию при обработке данных через слои, что приводит к более точным результатам. В то же время GELAN улучшает использование моделью своих слоев, повышая производительность и эффективность вычислений. Благодаря этим усовершенствованиям YOLOv9 может решать задачи реального времени на пограничных устройствах и в мобильных приложениях, где вычислительные ресурсы часто ограничены.

__wf_reserved_inherit
Рис. 2. Понимание того, как GELAN улучшает точность YOLOv9.

Ключевые особенности YOLOv9

Вот взгляд на некоторые другие ключевые особенности YOLOv8:

  • Высокая точность и эффективность: YOLOv9 обеспечивает высокую точность обнаружения, не потребляя много вычислительной мощности, что делает его отличным выбором при ограниченных ресурсах.
  • Легкие модели: Облегченные варианты моделей YOLOv9 оптимизированы для развертывания на границе и в мобильных сетях.
  • Простота использования: YOLOv9 поддерживается пакетом Ultralytics Python, поэтому его легко настроить и запустить в различных средах, независимо от того, используете ли вы код или командную строку.

YOLOv10 позволяет обнаруживать объекты без использования NMS

YOLOv10 была представлена 23 мая 2024 года исследователями из Университета Цинхуа и ориентирована на обнаружение объектов в реальном времени. В ней устранены недостатки предыдущих версий YOLO путем устранения необходимости в не максимальном подавлении (NMS), этапе постобработки, используемом для устранения дублирующих обнаружений, и усовершенствования общего дизайна модели. Это позволяет быстрее и эффективнее обнаруживать объекты, сохраняя при этом современную точность.

Важнейшая часть того, что делает это возможным, - подход к обучению, известный как последовательное назначение двух меток. В нем сочетаются две стратегии: одна позволяет нескольким прогнозам учиться на одном и том же объекте (one-to-many), а другая нацелена на выбор лучшего единственного прогноза (one-to-one). Поскольку обе стратегии следуют одним и тем же правилам сопоставления, модель самостоятельно учится избегать дубликатов, поэтому NMS не требуется.

__wf_reserved_inherit
Рис. 3. YOLOv10 использует последовательное назначение двойных меток для обучения без НМС.

В архитектуре YOLOv10 также используется улучшенная магистраль CSPNet для более эффективного изучения особенностей и горловина PAN (Path Aggregation Network), которая объединяет информацию с разных уровней, что позволяет лучше обнаруживать как мелкие, так и крупные объекты. Эти усовершенствования позволяют использовать YOLOv10 для реальных приложений в производстве, розничной торговле и автономном вождении.

Ключевые особенности YOLOv10

Вот некоторые другие отличительные особенности YOLOv10:

  • Свертки с большими ядрами: Модель использует свертки с большими ядрами, чтобы захватить больше контекста из более широких областей изображения, что помогает ей лучше понять сцену в целом.
  • Модули частичного самовнимания: Модель включает модули частичного самовнимания, чтобы сфокусироваться на наиболее важных частях изображения, не используя слишком много вычислительной мощности, что эффективно повышает производительность.
  • Уникальный вариант модели: Наряду с обычными размерами YOLOv10 - Nano, Small, Medium, Large и X - существует специальная версия под названием YOLOv10b (Balanced). Это более широкая модель, что означает, что она обрабатывает больше функций на каждом слое, что помогает повысить точность, сохраняя баланс между скоростью и размером.
  • Удобство использования: YOLOv10 совместим с пакетом Ultralytics Python, что делает его простым в использовании.

Ultralytics YOLO11: повышенная скорость и точность

В этом году, 30 сентября, компания Ultralytics официально представила YOLO11 - одну из последних моделей серии YOLO - на своем ежегодном гибридном мероприятии YOLO Vision 2024 (YV24).

В этом выпуске представлены значительные улучшения по сравнению с предыдущими версиями. YOLO11 стал быстрее, точнее и эффективнее. Он поддерживает весь спектр задач компьютерного зрения, знакомых пользователям YOLOv8, включая обнаружение объектов, сегментацию объектов и классификацию изображений. Также поддерживается совместимость с рабочими процессами YOLOv8, что облегчает пользователям плавный переход на новую версию.

Кроме того, YOLO11 разработана для удовлетворения широкого спектра вычислительных потребностей - от легких пограничных устройств до мощных облачных систем. Модель доступна как в виде версии с открытым исходным кодом, так и в виде корпоративной версии, что позволяет адаптировать ее для различных случаев использования.

Это отличный вариант для точных задач, таких как медицинская визуализация и обнаружение спутников, а также для более широкого применения в автономных транспортных средствах, сельском хозяйстве и здравоохранении.

__wf_reserved_inherit
Рис. 4. Использование Ultralytics YOLO11 для обнаружения, подсчета и отслеживания трафика.

Ключевые особенности YOLO11

Вот некоторые из других уникальных особенностей YOLO11:

  • Быстрое и эффективное обнаружение: YOLO11 оснащен головкой обнаружения, рассчитанной на минимальную задержку, что позволяет сконцентрировать внимание на скорости в последних слоях предсказания без ущерба для производительности.
  • Улучшенное извлечение признаков: Оптимизированная архитектура позвоночника и шеи улучшает извлечение признаков, что приводит к более точным прогнозам.
  • Бесшовное развертывание на разных платформах: YOLO11 оптимизирован для эффективной работы на пограничных устройствах, облачных платформах и графических процессорах NVIDIA, что обеспечивает адаптивность в различных средах.

Сравнительный анализ моделей YOLO на наборе данных COCO

При изучении различных моделей не всегда легко сравнить их, просто взглянув на их характеристики. Именно здесь на помощь приходит бенчмаркинг. Запустив все модели на одном и том же наборе данных, мы можем объективно измерить и сравнить их производительность. Давайте посмотрим, как каждая модель работает на наборе данных COCO.

Если сравнивать модели YOLO, то каждая новая версия приносит заметные улучшения в отношении точности, скорости и гибкости. В частности, YOLO11m демонстрирует значительный скачок, поскольку использует на 22 % меньше параметров, чем YOLOv8m, а значит, легче и быстрее в работе. Кроме того, несмотря на меньший размер, модель достигает более высокой средней точности (mAP) на наборе данных COCO. Эта метрика измеряет, насколько хорошо модель обнаруживает и локализует объекты, поэтому более высокая mAP означает более точные прогнозы. 

__wf_reserved_inherit
Рис. 5. Бенчмаркинг YOLO11 и других моделей YOLO на наборе данных COCO.

Тестирование и сравнение моделей YOLO на видео

Давайте посмотрим, как эти модели работают в реальной ситуации.

Чтобы сравнить YOLOv8, YOLOv9, YOLOv10 и YOLO11, все четыре модели были запущены на одном и том же дорожном видео с использованием коэффициента доверия 0,3 (модель отображает обнаружения, только если она уверена, что правильно идентифицировала объект, по крайней мере, на 30%) и размера изображения 640 для справедливой оценки. Результаты обнаружения и отслеживания объектов выявили ключевые различия в точности обнаружения, скорости и точности. 

С первого кадра YOLO11 уловил крупные транспортные средства, такие как грузовики, которые YOLOv10 пропустил. YOLOv8 и YOLOv9 показали достойные результаты, но они зависели от условий освещения и размера объекта. Маленькие, удаленные автомобили оставались проблемой для всех моделей, хотя YOLO11 продемонстрировал заметное улучшение в обнаружении и этих объектов.

__wf_reserved_inherit
Рис. 6. Сравнение YOLOv8, YOLOv9, YOLOv10 и YOLO11.

Что касается скорости, то все модели работали в диапазоне от 10 до 20 миллисекунд на кадр, что достаточно быстро для выполнения задач в реальном времени при частоте более 50 кадров в секунду. С одной стороны, YOLOv8 и YOLOv9 обеспечивали стабильное и надежное обнаружение на протяжении всего видео. Интересно, что YOLOv10, рассчитанный на меньшую задержку, работал быстрее, но демонстрировал некоторые несоответствия при обнаружении определенных типов объектов. 

YOLO11, напротив, выделялся своей точностью, предлагая сильный баланс между скоростью и точностью. Хотя ни одна из моделей не показала идеальных результатов в каждом кадре, сравнение бок о бок показало, что YOLO11 продемонстрировал наилучшую общую производительность. 

Какая модель YOLO лучше всего подходит для задач компьютерного зрения?

Выбор модели для проекта зависит от его конкретных требований. Например, для одних приложений приоритетом может быть скорость, а для других - более высокая точность или ограничения на развертывание, которые влияют на решение. 

Еще один важный фактор - тип задач компьютерного зрения, которые вам необходимо решать. Если вы ищете более широкую гибкость для решения различных задач, YOLOv8 и YOLO11 - хорошие варианты.

Выбор YOLOv8 или YOLO11 зависит от ваших потребностей. YOLOv8 - отличный вариант, если вы новичок в компьютерном зрении и цените большое сообщество, больше учебников и обширные сторонние интеграции

С другой стороны, если вы ищете передовую производительность с высокой точностью и скоростью, YOLO11 - лучший выбор, хотя он поставляется с меньшим сообществом и меньшим количеством интеграций из-за того, что это более новая версия.

Основные выводы

Начиная с Ultralytics YOLOv8 и заканчивая Ultralytics YOLO11, эволюция серии моделей YOLO отражает последовательное продвижение к более интеллектуальным моделям компьютерного зрения. Каждая версия YOLO приносит значительные улучшения в плане скорости, точности и аккуратности. 

По мере развития компьютерного зрения эти модели предлагают надежные решения реальных задач - от обнаружения объектов до автономных систем. Постоянное развитие моделей YOLO показывает, как далеко продвинулась эта область и как много нового мы можем ожидать в будущем.

Чтобы узнать больше об искусственном интеллекте, посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Откройте для себя достижения в различных отраслях, от ИИ в производстве до компьютерного зрения в здравоохранении. Ознакомьтесь с нашими вариантами лицензирования, чтобы начать работу над проектами Vision AI уже сегодня.

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена