Преимущества Ultralytics YOLO11 как детектора без привязки к якорям

5 декабря 2024 г.
Узнайте, как Ultralytics YOLO11 поддерживает object detection без anchor и какие преимущества эта архитектура модели дает различным приложениям.

5 декабря 2024 г.
Узнайте, как Ultralytics YOLO11 поддерживает object detection без anchor и какие преимущества эта архитектура модели дает различным приложениям.
Если мы оглянемся на историю моделей Vision AI, то концепция обнаружения объектов — основная задача компьютерного зрения, которая включает в себя идентификацию и локализацию объектов на изображении или видео — существует с 1960-х годов. Однако ключевая причина ее значимости в передовых инновациях сегодня заключается в том, что методы обнаружения объектов и архитектуры моделей с тех пор продвинулись и быстро улучшились.
В предыдущей статье мы обсуждали эволюцию обнаружения объектов и путь, который привел к моделям Ultralytics YOLO. Сегодня мы сосредоточимся на изучении более конкретной вехи на этом пути: переходе от детекторов на основе якорей к детекторам без якорей.
Детекторы на основе якорей используют предопределенные рамки, называемые «якорями», для прогнозирования местоположения объектов на изображении. В отличие от них, детекторы без якорей пропускают эти предопределенные рамки и вместо этого прогнозируют местоположение объектов напрямую.
Хотя этот сдвиг может показаться простым, логичным изменением, он фактически привел к значительным улучшениям в точности и эффективности обнаружения объектов. В этой статье мы поймем, как детекторы без привязки изменили компьютерное зрение благодаря таким достижениям, как Ultralytics YOLO11.
Детекторы на основе якорей используют предопределенные рамки, известные как якоря, чтобы помочь определить местоположение объектов на изображении. Представьте себе эти якоря как сетку рамок разных размеров и форм, размещенных над изображением. Затем модель регулирует эти рамки, чтобы соответствовать обнаруженным объектам. Например, если модель идентифицирует автомобиль, она изменит рамку якоря, чтобы более точно соответствовать положению и размеру автомобиля.
Каждый якорь связан с возможным объектом на изображении, и во время обучения модель учится настраивать ограничивающие рамки, чтобы лучше соответствовать местоположению, размеру и соотношению сторон объекта. Это позволяет модели обнаруживать объекты в разных масштабах и ориентациях. Однако выбор правильного набора ограничивающих рамок может занять много времени, а процесс их точной настройки может быть подвержен ошибкам.

Хотя детекторы на основе anchor boxes, такие как YOLOv4, хорошо зарекомендовали себя во многих приложениях, у них есть некоторые недостатки. Например, anchor boxes не всегда хорошо согласуются с объектами разной формы или размера, что затрудняет модели обнаружение маленьких или неправильной формы объектов. Процесс выбора и точной настройки размеров anchor boxes также может занимать много времени и требует больших ручных усилий. Помимо этого, модели на основе anchor boxes часто испытывают трудности с обнаружением объектов, которые перекрываются или перекрывают друг друга, поскольку предопределенные boxes могут плохо адаптироваться к этим более сложным сценариям.
Детекторы без привязки к якорям начали привлекать внимание в 2018 году с появлением таких моделей, как CornerNet и CenterNet, которые предложили новый подход к обнаружению объектов, устранив необходимость в предопределенных ограничивающих рамках. В отличие от традиционных моделей, которые полагаются на ограничивающие рамки разных размеров и форм для прогнозирования местоположения объектов, модели без якорей прогнозируют местоположение объектов напрямую. Они фокусируются на ключевых точках или признаках объекта, таких как центр, что упрощает процесс обнаружения и делает его более быстрым и точным.
Вот как обычно работают модели без привязки к якорям:

Поскольку модели без привязки к якорям не зависят от якорных фреймов, они имеют более простую конструкцию. Это означает, что они более эффективны с вычислительной точки зрения. Поскольку им не нужно обрабатывать несколько якорных фреймов, они могут обнаруживать объекты быстрее, что является важным преимуществом в приложениях реального времени, таких как автономное вождение и видеонаблюдение.
Модели без привязки к якорям также гораздо лучше справляются с небольшими, неправильными или перекрытыми объектами. Поскольку они фокусируются на обнаружении ключевых точек, а не на попытках подогнать ограничивающие рамки, они гораздо более гибкие. Это позволяет им точно обнаруживать объекты в загроможденных или сложных средах, где модели на основе якорей могут потерпеть неудачу.
Первоначально разработанные для скорости и эффективности, модели YOLO постепенно перешли от методов, основанных на anchor-ах, к обнаружению без anchor-ов, что делает такие модели, как YOLO11, более быстрыми, гибкими и лучше подходящими для широкого спектра приложений реального времени.
Вот краткий обзор того, как развивался дизайн без привязки к якорям в различных версиях YOLO:

Отличным примером преимуществ обнаружения без привязки к якорям с использованием YOLO11 является автономный транспорт. В самоуправляемых автомобилях быстрое и точное обнаружение пешеходов, других транспортных средств и препятствий имеет решающее значение для безопасности. Подход YOLO11 без привязки к якорям упрощает процесс обнаружения, напрямую предсказывая ключевые точки объектов, такие как центр пешехода или границы другого транспортного средства, вместо того, чтобы полагаться на предопределенные ограничивающие рамки.

YOLO11 не нужно настраивать или подгонять сетку якорей к каждому объекту, что может быть вычислительно затратным и медленным. Вместо этого она фокусируется на ключевых признаках, что делает ее быстрее и эффективнее. Например, когда пешеход выходит на дорогу перед автомобилем, YOLO11 может быстро определить его местоположение, точно определяя ключевые точки, даже если человек частично скрыт или движется. Способность адаптироваться к различным формам и размерам без ограничивающих рамок позволяет YOLO11 более надежно и с большей скоростью обнаруживать объекты, что жизненно важно для принятия решений в режиме реального времени в системах автономного вождения.
Другие приложения, в которых возможности YOLO11 без anchor-ов действительно выделяются, включают:
Хотя модели без anchor boxes, такие как YOLO11, предлагают много преимуществ, у них есть определенные ограничения. Одним из основных практических соображений является то, что даже модели без anchor boxes могут испытывать трудности с окклюзиями или сильно перекрывающимися объектами. Обоснование этого заключается в том, что компьютерное зрение направлено на воспроизведение человеческого зрения, и, как и мы иногда испытываем трудности с идентификацией окклюдированных объектов, модели ИИ могут сталкиваться с аналогичными проблемами.
Еще один интересный фактор связан с обработкой прогнозов моделей. Хотя архитектура моделей без привязки проще, чем у моделей на основе привязки, в некоторых случаях необходима дополнительная доработка. Например, методы постобработки, такие как подавление немаксимумов (NMS), могут потребоваться для очистки перекрывающихся прогнозов или повышения точности в переполненных сценах.
Переход от обнаружения на основе якорей к обнаружению без якорей стал значительным шагом вперед в области обнаружения объектов. С моделями без якорей, такими как YOLO11, процесс упрощается, что приводит к улучшению как точности, так и скорости.
Благодаря YOLO11 мы увидели, как безанкерная детекция объектов превосходно справляется с задачами, выполняемыми в реальном времени, такими как самоуправляемые автомобили, видеонаблюдение и медицинская визуализация, где быстрая и точная детекция имеет решающее значение. Этот подход позволяет YOLO11 легче адаптироваться к различным размерам объектов и сложным сценам, обеспечивая лучшую производительность в различных средах.
По мере развития компьютерного зрения обнаружение объектов будет только ускоряться, становиться более гибким и эффективным.
Изучите наш репозиторий на GitHub и присоединяйтесь к нашему активному сообществу, чтобы быть в курсе всех новостей об ИИ. Узнайте, как Vision AI влияет на такие сектора, как производство и сельское хозяйство.