Исследование обнаружения мелких объектов с помощью YOLO11

Дроны, оснащенные искусственным интеллектом Vision AI, могут летать на высоте сотен метров над землей и при этом detect , который на видеоизображении выглядит как несколько пикселей. На самом деле это обычная задача в таких областях, как робототехника, видеонаблюдение и дистанционное зондирование, где системы должны идентифицировать очень маленькие объекты на изображении.

Однако традиционные модели обнаружения объектов могут испытывать с этим трудности. Небольшие объекты на изображениях и в видео представляют собой очень ограниченную визуальную информацию. Проще говоря, когда модель рассматривает их, ей нечего изучать или распознавать.

Внутри эти модели обычно используют архитектуру, основанную на сверточной нейронной сети (CNN). Изображения проходят через слои сети и преобразуются в карты признаков или упрощенные представления, которые выделяют значимые паттерны вместо необработанных пикселей.

По мере продвижения изображения по сети эти карты характеристик становятся меньше. Это ускоряет вычисления, но также означает, что мелкие детали могут исчезнуть.

Для крошечных объектов эти детали имеют решающее значение. Как только эти детали исчезают, модель компьютерного зрения может испытывать трудности с обнаружением объекта, что может привести к менее точным или несогласованным ограничительным рамкам.

Системы компьютерного зрения, работающие в режиме реального времени, еще больше усложняют эту задачу. Изображения с высоким разрешением помогают сохранить детали, но они замедляют вычисления и требуют большей GPU . Изображения с более низким разрешением работают быстрее, но мелкие объекты становится еще труднее detect.

Это становится постоянным балансированием между скоростью, точностью и ограничениями аппаратного обеспечения. Благодаря недавним технологическим достижениям, модели компьютерного зрения, такие как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics , разработаны для более эффективного управления этим компромиссом.

Рис. 1. Использование YOLO11 detect объектов на аэрофотоснимках (Источник)

‍

В этой статье мы рассмотрим, почему обнаружение мелких объектов является сложной задачей и как YOLO11 ее упростить. Приступим!

Что такое обнаружение мелких объектов и почему оно важно?

Обнаружение мелких объектов — это задача в области компьютерного зрения, одной из отраслей искусственного интеллекта, которая сосредоточена на идентификации и локализации объектов, занимающих очень небольшую часть изображения. Эти объекты часто представлены в изображении ограниченным количеством пикселей, которые являются наименьшими единицами цифрового изображения. Это делает их более сложными для detect более крупные и четкие объекты (которые часто содержат больше пикселей).

Например, транспортные средства на аэрофотоснимках, инструменты на заводском цехе или люди, запечатленные широкоугольными камерами наблюдения, могут отображаться на изображении в виде небольших объектов. Их обнаружение важно, поскольку они часто содержат важную информацию, а многие реальные приложения, такие как системы наблюдения, зависят от правильного функционирования этих средств обнаружения.

Когда мелкие объекты остаются незамеченными, это может повлиять на производительность системы и принятие решений. Хорошим примером является мониторинг с помощью беспилотных летательных аппаратов (БПЛА), где пропуск мелкого движущегося объекта на земле может повлиять на точность навигации или отслеживания.

Проблемы, связанные с обнаружением мелких объектов

В более ранних системах использовались ручные функции и традиционные методы компьютерного зрения, которые не справлялись с загруженными или разнообразными сценами. Даже сегодня, когда модели глубокого обучения работают гораздо лучше, обнаружение небольших целей по-прежнему затруднительно, если они занимают лишь небольшую часть изображения.

Далее рассмотрим некоторые типичные проблемы, возникающие в различных реальных сценариях при обнаружении мелких объектов.

Размер, пиксели и потеря информации

Небольшие объекты содержат очень мало пикселей, что ограничивает количество визуальных деталей, которые модель может запомнить на таких этапах, как извлечение признаков. В результате такие элементы, как края, формы и текстуры, сложнее detect, из-за чего небольшие объекты чаще смешиваются с фоном.

По мере прохождения изображений через слои свертки нейронной сети визуальная информация в пикселях постепенно сжимается в карты признаков. Это помогает модели оставаться эффективной, но также означает, что мелкие детали теряются.

Рис. 2. Карты признаков представляют визуальные шаблоны в изображении (Источник)

‍

В случае небольших целей важные сигналы могут исчезнуть до того, как сеть обнаружения успеет сработать. Когда это происходит, локализация становится менее надежной, а ограничительные рамки могут смещаться, перекрываться или полностью пропускать целевые объекты.

Окклюзия, вариация масштаба и контекст

Проблемы, связанные с размером, также часто возникают из-за окклюзии. Окклюзия возникает, когда объекты, особенно небольшие, частично скрываются другими объектами в сцене.

Это уменьшает видимую площадь цели, что ограничивает информацию, доступную для детектора объектов. Даже небольшая окклюзия может сбить с толку сети обнаружения, особенно в сочетании с входными данными низкого разрешения. Интересный пример этого можно увидеть в наборах данных БПЛА, таких как VisDrone, где пешеходы, велосипедисты или транспортные средства могут быть частично заблокированы зданиями, деревьями или другими движущимися объектами.

Рис. 3. Пример из набора данных VisDrone, показывающий небольшие объекты (Источник)

‍

Аналогичным образом, различия в масштабе создают дополнительную сложность, когда один и тот же объект выглядит очень маленьким или относительно большим в зависимости от расстояния и положения камеры. Несмотря на эти препятствия, алгоритмы обнаружения должны распознавать эти небольшие объекты в разных масштабах без потери точности.

Контекст также играет важную роль в обнаружении. Например, крупные объекты обычно появляются на фоне четкого окружения, которое дает полезные визуальные подсказки. С другой стороны, мелкие цели часто лишены этой контекстной информации, что затрудняет распознавание образов.

Скрытая проблема метрики при обнаружении небольших объектов

Общие метрики оценки, такие как Intersection over Union (IoU), измеряют степень перекрытия прогнозируемой ограничительной рамки с реальной рамкой. Хотя IoU хорошо IoU для крупных объектов, его поведение совершенно иное для мелких объектов.

Небольшие объекты занимают всего несколько пикселей, поэтому даже незначительное смещение в прогнозируемом поле может привести к большой пропорциональной погрешности и резкому снижению IoU . Это означает, что небольшие объекты часто не соответствуют стандартному IoU , используемому для определения правильности прогноза, даже если объект виден на изображении.

В результате ошибки локализации чаще классифицируются как ложные срабатывания или ложные отказы. Эти ограничения побудили исследователей переосмыслить подход систем обнаружения объектов к оценке и обработке небольших,detect .

Многомасштабные особенности: ключ к обнаружению небольших объектов в реальном времени

По мере того как исследователи работали над улучшением обнаружения мелких объектов, стало ясно, что сохранение и представление визуальной информации в нескольких масштабах имеет решающее значение. Эта идея нашла отражение в недавних исследованиях arXiv и в статьях, представленных на таких мероприятиях, как международные конференции IEEE и Европейская ассоциация компьютерного зрения (ECCV).

По мере продвижения изображений вглубь нейронной сети мелкие объекты могут терять детали или полностью исчезать, поэтому современные модели компьютерного зрения, такие как YOLO11 большое внимание улучшению извлечения признаков. Далее давайте рассмотрим основные концепции, лежащие в основе карт признаков и сетей пирамиды признаков, чтобы лучше их понять.

Карты характеристик и масштабное представление

Когда входной образ, например, изображение дистанционного зондирования, поступает в нейронную сеть, он постепенно преобразуется в карты признаков. Это упрощенные представления образа, которые выделяют визуальные паттерны, такие как края, формы и текстуры.

По мере углубления сети эти карты признаков становятся меньше по пространственному размеру. Это уменьшение помогает модели работать эффективно и сосредоточиться на информации высокого уровня. Однако сокращение и углубление карт признаков также приводит к уменьшению пространственных деталей.

Рис. 4. Извлечение признаков является ключевым фактором для обнаружения небольших объектов. (Источник)

‍

В то время как крупные объекты сохраняют достаточно визуальной информации для точного обнаружения, мелкие объекты могут терять важные детали уже после нескольких сетевых слоев. В этом случае модель может с трудом распознать даже само существование мелкого объекта. Это одна из основных причин, по которой мелкие объекты пропускаются в моделях глубокого обнаружения объектов.

Пирамидальные сети и многомасштабное обучение

Сети пирамиды признаков, часто называемые FPN, были введены для решения проблемы потери пространственных деталей и работают как вспомогательный модуль, который объединяет информацию из нескольких слоев, чтобы модели могли более эффективно detect объекты. Этот процесс также известен как агрегация признаков и слияние признаков.

Неглубокие слои обеспечивают точные пространственные детали, а более глубокие слои добавляют семантический контекст, что позволяет эффективно обучать многомасштабные особенности. В отличие от простого повышения разрешения, которое просто увеличивает карты особенностей, FPN сохраняет значимую информацию и улучшает обнаружение мелких объектов.

Современные подходы основываются на этой идее, используя адаптивное объединение характеристик и контекстно-зависимые конструкции для дальнейшего улучшения обнаружения небольших целей. Другими словами, FPN помогает моделям одновременно видеть как общую картину, так и мельчайшие детали. Эта оптимизация необходима, когда объекты имеют небольшой размер.

Как модели обнаружения объектов эволюционировали для обработки мелких объектов

Вот краткий обзор того, как модели обнаружения объектов развивались и совершенствовались с течением времени, чтобы лучше detect разных размеров, в том числе очень маленькие:

Методы раннего обнаружения: ранние методы обнаружения объектов основывались на вручную разработанных характеристиках и алгоритмах, основанных на правилах, уходящих корнями в классическую обработку изображений. Поскольку эти характеристики были фиксированными, производительность снижалась при использовании различных изображений.
Внедрение машинного обучения и глубокого обучения: Применение машинного обучения и глубокого обучения ознаменовало серьезный сдвиг в исследованиях в области обнаружения объектов. Вместо того чтобы полагаться на заранее определенные правила, нейронные сети учились визуальным представлениям непосредственно на основе обучающих данных, что позволило улучшить адаптируемость к объектам разного размера и сценам.
Сверточные сети: эти нейронные сети учатся распознавать паттерны в изображениях. Каждый слой улавливает разные детали, начиная с простых краев и цветов, затем форм и, в конечном итоге, целых объектов, что делает их незаменимыми для современного компьютерного зрения.
Двухэтапные детекторы объектов: двухэтапные детекторы, такие как Faster R-CNN, представленные Girshick и Ren, сначала генерировали области-кандидаты, а затем классифицировали их. Такой подход повысил точность для небольших объектов, но увеличил вычислительные затраты и снизил производительность в режиме реального времени.
Одноступенчатые детекторы объектов: одноступенчатые детекторы, такие как SSD (Single-Shot Detector) и семейство YOLO You Only Look Once), включая YOLOv3, Ultralytics YOLOv5и более поздние версии Ultralytics YOLOv8, выполняют обнаружение за один проход. Такая конструкция значительно повышает скорость вывода, сохраняя при этом конкурентоспособную точность.
Новейшие современные модели: Новые модели обнаружения объектов уделяют больше внимания производительности в реальном времени и развертыванию на периферии. Последние версииYOLO Ultralytics YOLO , такие как Ultralytics YOLO11 готовящаяся к выпуску Ultralytics , разработаны с целью обеспечить баланс между высокой точностью и низкой задержкой вывода, что делает их подходящими для обнаружения объектов всех размеров, включая небольшие цели, на устройствах с ограниченной вычислительной мощностью.

Использование YOLO11 обнаружения небольших объектов

Теперь, когда мы лучше понимаем, как работает обнаружение мелких объектов, давайте рассмотрим несколько реальных примеров YOLO11 .

БПЛА и аэрофотосъемка

Представьте себе дрон, летящий высоко над оживленной городской улицей. С такой высоты автомобили, велосипеды и даже люди превращаются в несколько пикселей на экране.

БПЛА и модули аэрофотосъемки часто фиксируют подобные сцены, где объекты, представляющие интерес, являются крошечными и окружены загроможденным фоном, что затрудняет их detect моделями компьютерного зрения.

В таких сценариях YOLO11 быть идеальным выбором модели. Например, дрон, оснащенный моделью типа YOLO11 отслеживать дорожное движение в режиме реального времени, обнаруживая автомобили, велосипедистов и пешеходов, которые перемещаются по сцене, даже если каждый объект занимает лишь небольшую часть изображения. Это позволяет быстрее принимать решения и получать более точные данные в таких областях, как управление дорожным движением, общественная безопасность или городское планирование.

Робототехника и автоматизация

Роботы часто используются в условиях, где точность и синхронизация имеют решающее значение. В таких местах, как склады, фабрики и фермы, робот может нуждаться в распознавании очень мелких объектов, таких как деталь на конвейере, этикетка на упаковке или маленький бутон растения на поле, и быстрой реакции.

Обнаружение объектов такого размера может быть сложной задачей, особенно когда они занимают всего несколько пикселей в изображении с камеры или частично закрыты другими объектами. Пропуск таких мелких деталей может замедлить работу автоматизированной системы или повлиять на способность робота выполнить задачу.

YOLO11 изменить ситуацию в таких случаях. Улучшенная функция извлечения признаков и быстрое выведение позволяют роботам detect объекты в режиме реального времени и немедленно принимать меры.

YOLO11 поддерживает сегментацию экземпляров, что помогает роботам более точно определять границы объектов и точки захвата, а не только находить общие ограничительные рамки. Например, роботизированная рука, интегрированная с YOLO11 обнаруживать мелкие детали на конвейерной ленте, segment точную форму и подбирать их, прежде чем они выйдут из зоны досягаемости, что помогает системе оставаться эффективной и надежной.

Что делает YOLO11 для обнаружения небольших объектов

С учетом того, что сегодня доступно так много моделей компьютерного зрения, вы, возможно, задаетесь вопросом, чем жеYOLO11 Ultralytics YOLO11 .

Вот несколько причин, по которым Ultralytics YOLO11 отличным выбором для приложений, в которых необходимо обнаруживать небольшие объекты:

Улучшенное извлечение признаков: YOLO11 улучшенную архитектуру «спина и шея» для улучшения извлечения признаков, что позволяет более точно обнаруживать объекты.
Экосистема и простота использования: Python Ultralytics Python — это библиотека, которая предоставляет встроенные функции для загрузки, обучения, проверки и развертывания моделей, таких как YOLO11. Поскольку эти рабочие процессы требуют всего нескольких строк кода, команды могут быстро экспериментировать и настраивать модели для обнаружения небольших объектов.
Оптимизировано для периферийного развертывания: YOLO11 эффективно работать на периферийных устройствах, таких как NVIDIA , Raspberry Pi и промышленных камерных системах. Проще говоря, оно позволяет выполнять задачи искусственного интеллекта в режиме реального времени непосредственно на устройстве.

Практические стратегии для обнаружения мелких объектов с помощью YOLO11

Помимо использования такой модели, как YOLO11, способ подготовки аннотаций, общий набор данных и процедура обучения модели могут существенно повлиять на эффективность обнаружения.

Вот краткий обзор того, на чем следует сосредоточить внимание:

Правильное увеличение объема данных: Незначительное увеличение объема данных, такое как масштабирование или кадрирование, может помочь модели обобщить новые изображения. Однако агрессивное увеличение объема данных в больших масштабах может исказить или удалить мелкие объекты, что затруднит их изучение моделью.
Анализ случаев неудач: анализ того, где модель пропускает или неправильно идентифицирует объекты, помогает создать базовую линию и выявить, связаны ли проблемы с набором данных, потерей информации при извлечении признаков или необходимостью настройки параметров обучения.
Состав набора данных: ваш набор данных должен содержать достаточное количество примеров небольших объектов, чтобы модель могла выявить значимые закономерности, и он должен оставаться сбалансированным, чтобы более крупные объекты не затмевали более мелкие во время обучения.

Основные выводы

Обнаружение мелких объектов затруднено, поскольку мелкие цели теряют детали при прохождении изображений через модель компьютерного зрения. YOLO11 сохранение этих деталей, делая обнаружение мелких объектов более надежным без ущерба для производительности в реальном времени. Этот баланс позволяет YOLO11 точное и эффективное обнаружение в реальных приложениях.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий GitHub, чтобы узнать больше об ИИ. Откройте для себя такие инновации, как компьютерное зрение в розничной торговле и ИИ в автомобильной промышленности, посетив страницы с нашими решениями. Чтобы начать создавать решения на основе компьютерного зрения уже сегодня, ознакомьтесь с нашими вариантами лицензирования.

Исследование обнаружения мелких объектов с помощью Ultralytics YOLO11

Что такое обнаружение мелких объектов и почему оно важно?