Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Преимущества Ultralytics YOLO11 как детектора без привязки к якорям

Абирами Вина

5 мин чтения

5 декабря 2024 г.

Узнайте, как Ultralytics YOLO11 поддерживает object detection без anchor и какие преимущества эта архитектура модели дает различным приложениям.

Если мы оглянемся на историю моделей Vision AI, то концепция обнаружения объектов — основная задача компьютерного зрения, которая включает в себя идентификацию и локализацию объектов на изображении или видео — существует с 1960-х годов. Однако ключевая причина ее значимости в передовых инновациях сегодня заключается в том, что методы обнаружения объектов и архитектуры моделей с тех пор продвинулись и быстро улучшились. 

В предыдущей статье мы обсуждали эволюцию обнаружения объектов и путь, который привел к моделям Ultralytics YOLO. Сегодня мы сосредоточимся на изучении более конкретной вехи на этом пути: переходе от детекторов на основе якорей к детекторам без якорей. 

Детекторы на основе якорей используют предопределенные рамки, называемые «якорями», для прогнозирования местоположения объектов на изображении. В отличие от них, детекторы без якорей пропускают эти предопределенные рамки и вместо этого прогнозируют местоположение объектов напрямую.

Хотя этот сдвиг может показаться простым, логичным изменением, он фактически привел к значительным улучшениям в точности и эффективности обнаружения объектов. В этой статье мы поймем, как детекторы без привязки изменили компьютерное зрение благодаря таким достижениям, как Ultralytics YOLO11.

Что такое детекторы на основе anchor boxes?

Детекторы на основе якорей используют предопределенные рамки, известные как якоря, чтобы помочь определить местоположение объектов на изображении. Представьте себе эти якоря как сетку рамок разных размеров и форм, размещенных над изображением. Затем модель регулирует эти рамки, чтобы соответствовать обнаруженным объектам. Например, если модель идентифицирует автомобиль, она изменит рамку якоря, чтобы более точно соответствовать положению и размеру автомобиля.

Каждый якорь связан с возможным объектом на изображении, и во время обучения модель учится настраивать ограничивающие рамки, чтобы лучше соответствовать местоположению, размеру и соотношению сторон объекта. Это позволяет модели обнаруживать объекты в разных масштабах и ориентациях. Однако выбор правильного набора ограничивающих рамок может занять много времени, а процесс их точной настройки может быть подвержен ошибкам.

__wf_reserved_inherit
Рис. 1. Что такое Anchor Box?

Хотя детекторы на основе anchor boxes, такие как YOLOv4, хорошо зарекомендовали себя во многих приложениях, у них есть некоторые недостатки. Например, anchor boxes не всегда хорошо согласуются с объектами разной формы или размера, что затрудняет модели обнаружение маленьких или неправильной формы объектов. Процесс выбора и точной настройки размеров anchor boxes также может занимать много времени и требует больших ручных усилий. Помимо этого, модели на основе anchor boxes часто испытывают трудности с обнаружением объектов, которые перекрываются или перекрывают друг друга, поскольку предопределенные boxes могут плохо адаптироваться к этим более сложным сценариям.

Переход к обнаружению объектов без якорей

Детекторы без привязки к якорям начали привлекать внимание в 2018 году с появлением таких моделей, как CornerNet и CenterNet, которые предложили новый подход к обнаружению объектов, устранив необходимость в предопределенных ограничивающих рамках. В отличие от традиционных моделей, которые полагаются на ограничивающие рамки разных размеров и форм для прогнозирования местоположения объектов, модели без якорей прогнозируют местоположение объектов напрямую. Они фокусируются на ключевых точках или признаках объекта, таких как центр, что упрощает процесс обнаружения и делает его более быстрым и точным.

Вот как обычно работают модели без привязки к якорям:

  • Определение ключевых точек: Вместо использования предопределенных рамок некоторые модели определяют важные точки на объекте, такие как центр или определенные углы. Эти ключевые точки помогают моделям понять, где находится объект и насколько он велик.
  • Центр прогнозирования: Некоторые модели фокусируются на прогнозировании центра объекта. Как только центр определен, модель может предсказать размер и положение всего объекта оттуда.
  • Тепловая карта регрессии: Многие модели без привязки используют тепловые карты, где каждый пиксель представляет возможное местоположение объекта. Более сильные значения тепловой карты указывают на более высокую уверенность в том, что объект присутствует в этой точке.
__wf_reserved_inherit
Рис. 2. Обнаружение на основе якорей против обнаружения без якорей.

Поскольку модели без привязки к якорям не зависят от якорных фреймов, они имеют более простую конструкцию. Это означает, что они более эффективны с вычислительной точки зрения. Поскольку им не нужно обрабатывать несколько якорных фреймов, они могут обнаруживать объекты быстрее, что является важным преимуществом в приложениях реального времени, таких как автономное вождение и видеонаблюдение. 

Модели без привязки к якорям также гораздо лучше справляются с небольшими, неправильными или перекрытыми объектами. Поскольку они фокусируются на обнаружении ключевых точек, а не на попытках подогнать ограничивающие рамки, они гораздо более гибкие. Это позволяет им точно обнаруживать объекты в загроможденных или сложных средах, где модели на основе якорей могут потерпеть неудачу.

Ultralytics YOLO11: детектор без привязки к якорям

Первоначально разработанные для скорости и эффективности, модели YOLO постепенно перешли от методов, основанных на anchor-ах, к обнаружению без anchor-ов, что делает такие модели, как YOLO11, более быстрыми, гибкими и лучше подходящими для широкого спектра приложений реального времени.

Вот краткий обзор того, как развивался дизайн без привязки к якорям в различных версиях YOLO:

  • Ultralytics YOLOv5u: Представила Anchor-Free Split Ultralytics Head, устранив необходимость в предопределенных якорных фреймах. Вместо этого модель напрямую предсказывает, где находятся объекты на изображении, упрощая процесс и повышая гибкость и скорость.
  • YOLOv6: Был использован новый метод под названием Anchor-Aided Training (AAT), при котором якоря использовались только во время обучения. Это позволило модели извлечь выгоду из структуры методов, основанных на якорях, во время обучения, при этом все еще используя обнаружение без якорей во время выполнения для повышения скорости и адаптируемости.
  • Ultralytics YOLOv8: Полностью перешла на обнаружение без привязки к якорям, используя Anchor-Free Split Ultralytics Head. Это сделало модель быстрее и точнее, особенно для маленьких или имеющих необычную форму объектов, которые плохо сочетаются с якорными фреймами.
  • Ultralytics YOLO11: Развивает подход YOLOv8 без привязки к якорям, еще больше оптимизируя обнаружение за счет полного исключения якорных фреймов. Это обеспечивает более быстрое и точное обнаружение для приложений реального времени, таких как мониторинг поведения животных и аналитика розничной торговли.
__wf_reserved_inherit
Рис. 3. Сравнение Ultralytics YOLOv8 и Ultralytics YOLO11.

Реальные примеры использования YOLO11

Отличным примером преимуществ обнаружения без привязки к якорям с использованием YOLO11 является автономный транспорт. В самоуправляемых автомобилях быстрое и точное обнаружение пешеходов, других транспортных средств и препятствий имеет решающее значение для безопасности. Подход YOLO11 без привязки к якорям упрощает процесс обнаружения, напрямую предсказывая ключевые точки объектов, такие как центр пешехода или границы другого транспортного средства, вместо того, чтобы полагаться на предопределенные ограничивающие рамки. 

__wf_reserved_inherit
Рис. 4. Преимущества Anchor-Free Detection в YOLO11 (изображение автора).

YOLO11 не нужно настраивать или подгонять сетку якорей к каждому объекту, что может быть вычислительно затратным и медленным. Вместо этого она фокусируется на ключевых признаках, что делает ее быстрее и эффективнее. Например, когда пешеход выходит на дорогу перед автомобилем, YOLO11 может быстро определить его местоположение, точно определяя ключевые точки, даже если человек частично скрыт или движется. Способность адаптироваться к различным формам и размерам без ограничивающих рамок позволяет YOLO11 более надежно и с большей скоростью обнаруживать объекты, что жизненно важно для принятия решений в режиме реального времени в системах автономного вождения.

Другие приложения, в которых возможности YOLO11 без anchor-ов действительно выделяются, включают:

  • Управление розничной торговлей и запасами: YOLO11 упрощает мониторинг товаров на полках, даже если они сложены или частично заблокированы. Это помогает быстрее и точнее отслеживать запасы и снижает количество ошибок.
  • Медицинская визуализация: YOLO11 также эффективен в здравоохранении, где он может обнаруживать опухоли или другие отклонения в медицинских сканах. Его способность работать с объектами неправильной формы помогает повысить точность диагностики сложных состояний.
  • Мониторинг дикой природы: В исследованиях дикой природы YOLO11 может отслеживать животных в густых лесах или труднопроходимой местности, помогая исследователям отслеживать поведение или защищать исчезающие виды.
  • Спортивная аналитика: YOLO11 можно использовать для отслеживания игроков, движений мяча или других элементов в режиме реального времени во время спортивных мероприятий, чтобы предоставить ценную информацию командам, тренерам и вещательным компаниям.

Соображения, которые следует учитывать при работе с моделями без привязки к anchor boxes

Хотя модели без anchor boxes, такие как YOLO11, предлагают много преимуществ, у них есть определенные ограничения. Одним из основных практических соображений является то, что даже модели без anchor boxes могут испытывать трудности с окклюзиями или сильно перекрывающимися объектами. Обоснование этого заключается в том, что компьютерное зрение направлено на воспроизведение человеческого зрения, и, как и мы иногда испытываем трудности с идентификацией окклюдированных объектов, модели ИИ могут сталкиваться с аналогичными проблемами.

Еще один интересный фактор связан с обработкой прогнозов моделей. Хотя архитектура моделей без привязки проще, чем у моделей на основе привязки, в некоторых случаях необходима дополнительная доработка. Например, методы постобработки, такие как подавление немаксимумов (NMS), могут потребоваться для очистки перекрывающихся прогнозов или повышения точности в переполненных сценах.

Закрепляемся в будущем ИИ с YOLO11

Переход от обнаружения на основе якорей к обнаружению без якорей стал значительным шагом вперед в области обнаружения объектов. С моделями без якорей, такими как YOLO11, процесс упрощается, что приводит к улучшению как точности, так и скорости.

Благодаря YOLO11 мы увидели, как безанкерная детекция объектов превосходно справляется с задачами, выполняемыми в реальном времени, такими как самоуправляемые автомобили, видеонаблюдение и медицинская визуализация, где быстрая и точная детекция имеет решающее значение. Этот подход позволяет YOLO11 легче адаптироваться к различным размерам объектов и сложным сценам, обеспечивая лучшую производительность в различных средах.

По мере развития компьютерного зрения обнаружение объектов будет только ускоряться, становиться более гибким и эффективным.

Изучите наш репозиторий на GitHub и присоединяйтесь к нашему активному сообществу, чтобы быть в курсе всех новостей об ИИ. Узнайте, как Vision AI влияет на такие сектора, как производство и сельское хозяйство.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена