Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Ultralytics YOLO

Исследование обнаружения мелких объектов с помощью Ultralytics YOLO11

Узнай, как Ultralytics YOLO11 обеспечивает быстрое и точное обнаружение мелких объектов в реальных задачах, таких как видеонаблюдение и робототехника.

АБАбирами Вина
5 min read
Ultralytics YOLO11 обнаруживает мелкие объекты на аэроснимках

Дроны, оснащенные ИИ-зрением, могут летать на высоте сотен метров над землей, и от них все равно ожидают обнаружения человека, который выглядит как всего несколько пикселей в видеопотоке. На самом деле это распространенная проблема в таких областях, как робототехника, наблюдение и дистанционное зондирование, где системы должны идентифицировать объекты, которые выглядят очень маленькими на изображении.

Но традиционные модели обнаружения объектов могут с этим не справляться. Мелкие объекты на изображениях и видео содержат очень мало визуальной информации. Проще говоря, когда модель смотрит на них, в них нет достаточной детализации, чтобы что-то распознать или извлечь полезный опыт.

В своей основе эти модели обычно полагаются на архитектуру на базе сверточной нейронной сети (CNN). Изображения проходят через слои сети и преобразуются в карты признаков или упрощенные представления, которые подчеркивают релевантные закономерности, а не исходные пиксели.

По мере того как изображение продвигается глубже в сеть, эти карты признаков становятся меньше. Это ускоряет вычисления, но также означает, что мелкие детали могут исчезнуть.

Для крошечных объектов эти детали критически важны. Как только они исчезают, модели компьютерного зрения становится трудно обнаружить объект, что может привести к менее точным или нестабильным ограничивающим рамкам (bounding boxes).

В системах компьютерного зрения реального времени с архитектурой end-to-end это еще сложнее. Изображения высокого разрешения помогают сохранить детализацию, но они замедляют инференс и требуют больше мощности GPU. Низкое разрешение работает быстрее, но мелкие объекты становятся еще труднее обнаруживать.

Это постоянный баланс между скоростью, точностью и аппаратными ограничениями. Благодаря недавним технологическим достижениям такие модели компьютерного зрения, как Ultralytics YOLO11 и готовящаяся к выходу Ultralytics YOLO26, разработаны для более эффективного управления этим компромиссом.

Использование YOLO11 для обнаружения мелких объектов на аэрофотоснимках

Рис 1. Использование YOLO11 для обнаружения мелких объектов на аэрофотоснимках (Источник)

В этой статье мы разберем, почему обнаружение мелких объектов — сложная задача и как YOLO11 может ее упростить. Начнем!

Link to this sectionЧто такое обнаружение мелких объектов и почему это важно?#

Обнаружение мелких объектов — это задача компьютерного зрения, ветви ИИ, которая фокусируется на идентификации и локализации объектов, занимающих очень малую часть изображения. Эти объекты часто представлены на изображении ограниченным количеством пикселей, которые являются наименьшими единицами цифрового изображения. Это делает их более сложными для обнаружения, чем более крупные и четкие цели (которые часто содержат больше пикселей).

Например, транспортные средства на аэрофотоснимках, инструменты в цеху завода или люди, попавшие в широкоугольные камеры наблюдения, — все это может выглядеть как мелкие объекты на изображении. Их обнаружение важно, поскольку они часто несут критически важную информацию, и многие реальные приложения, такие как видеонаблюдение, зависят от корректности этих данных для нормальной работы.

Когда мелкие объекты пропускаются, это может влиять на производительность системы и принятие решений. Мониторинг с помощью беспилотных летательных аппаратов (UAV) — хороший пример: пропуск небольшого движущегося объекта на земле может повлиять на точность навигации или отслеживания.

Link to this sectionПроблемы, связанные с обнаружением мелких объектов#

Более ранние системы использовали рукотворные признаки и традиционные методы компьютерного зрения, которые испытывали трудности в загруженных или разнообразных сценах. Даже сегодня, когда модели глубокого обучения работают намного лучше, обнаружение мелких целей остается сложной задачей, когда они занимают лишь крошечную часть изображения.

Далее рассмотрим некоторые распространенные проблемы, которые возникают в различных реальных сценариях при обнаружении мелких объектов.

Link to this sectionРазмер, пиксели и потеря информации#

Мелкие объекты содержат очень мало пикселей, что ограничивает объем визуальных деталей, которые модель может изучить на этапах, подобных извлечению признаков. В результате такие паттерны, как границы, формы и текстуры, сложнее обнаружить, из-за чего мелкие объекты с большей вероятностью сливаются с фоном.

По мере прохождения изображений через сверточные слои нейронной сети визуальная информация в пикселях постепенно сжимается в карты признаков. Это помогает модели оставаться эффективной, но также означает, что мелкие детали постепенно исчезают.

Карты признаков, отображающие визуальные паттерны на изображении

Рис 2. Карты признаков представляют визуальные паттерны на изображении (Источник)

Для мелких целей важные признаки могут исчезнуть до того, как сеть обнаружения успеет среагировать. Когда это происходит, локализация становится менее надежной, а ограничивающие рамки могут смещаться, накладываться или полностью пропускать целевые объекты.

Link to this sectionОкклюзия, изменение масштаба и контекст#

Проблемы, связанные с размером, также часто вызываются окклюзией. Окклюзия возникает, когда объекты, особенно мелкие, частично скрыты другими объектами на сцене.

Это уменьшает видимую область цели, что ограничивает информацию, доступную для детектора объектов. Даже небольшая окклюзия может сбить с толку сети обнаружения, особенно в сочетании с входными данными низкого разрешения. Интересный пример этого можно увидеть в наборах данных UAV, таких как VisDrone, где пешеходы, велосипеды или транспортные средства могут быть частично перекрыты зданиями, деревьями или другими движущимися объектами.

Пример из набора данных VisDrone, демонстрирующий мелкие объекты

Рис 3. Пример из набора данных VisDrone, показывающий мелкие объекты (Источник)

Аналогично, изменение масштаба вносит еще один уровень сложности, когда один и тот же объект кажется очень маленьким или относительно крупным в зависимости от расстояния и положения камеры. Несмотря на эти препятствия, алгоритмы обнаружения должны распознавать эти мелкие объекты при различных масштабах, не теряя точности.

Контекст также играет важную роль в обнаружении. Например, крупные объекты обычно появляются на фоне четкого окружения, которое предоставляет полезные визуальные подсказки. С другой стороны, мелким целям часто не хватает этой контекстной информации, что усложняет распознавание паттернов.

Link to this sectionПроблема скрытых метрик при обнаружении мелких объектов#

Общие метрики оценки, такие как Intersection over Union (IoU), измеряют, насколько хорошо предсказанная ограничивающая рамка перекрывается с истинной (ground-truth). Хотя IoU хорошо работает для крупных объектов, его поведение сильно отличается для мелких.

Мелкие объекты занимают всего несколько пикселей, поэтому даже небольшое смещение в предсказанной рамке может создать большую относительную погрешность и резко снизить оценку IoU. Это означает, что мелкие объекты часто не достигают стандартного порога IoU, используемого для того, чтобы считать предсказание верным, даже когда объект виден на изображении.

В результате ошибки локализации с большей вероятностью классифицируются как ложноположительные или ложноотрицательные. Эти ограничения побудили исследователей переосмыслить то, как системы обнаружения объектов оценивают и обрабатывают мелкие, трудно обнаруживаемые цели.

Link to this sectionМультимасштабные признаки: Ключ к обнаружению мелких объектов в реальном времени#

По мере того как исследователи работали над улучшением обнаружения мелких объектов, стало ясно, что сохранение и представление визуальной информации в различных масштабах является необходимым. Это понимание отражено в недавних исследованиях на arXiv и в статьях, представленных на таких площадках, как международные конференции IEEE и Европейская ассоциация компьютерного зрения (ECCV).

По мере прохождения изображений глубже через нейронную сеть мелкие объекты могут терять детализацию или исчезать вовсе, поэтому современные модели компьютерного зрения, такие как YOLO11, уделяют особое внимание улучшению извлечения признаков. Далее давайте разберем основные концепции карт признаков и сетей пирамид признаков, чтобы лучше их понять.

Link to this sectionКарты признаков и масштабируемое представление#

Когда входное изображение, например снимок дистанционного зондирования, попадает в нейронную сеть, оно постепенно преобразуется в карты признаков. Это упрощенные представления изображения, которые выделяют визуальные паттерны, такие как границы, формы и текстуры.

По мере того как сеть становится глубже, пространственный размер этих карт признаков уменьшается. Это сокращение помогает модели работать эффективно и фокусироваться на высокоуровневой информации. Однако уменьшение размера и глубокие карты признаков также снижают пространственную детализацию.

Извлечение признаков — ключ к обнаружению мелких объектов

Рис 4. Извлечение признаков является ключом к обнаружению мелких объектов. (Источник)

Хотя крупные объекты сохраняют достаточно визуальной информации для точного обнаружения, мелкие цели могут потерять критические детали уже после нескольких слоев сети. Когда это происходит, модель может с трудом распознать, что мелкий объект вообще существует. Это одна из главных причин, почему мелкие объекты пропускаются в моделях глубокого обнаружения.

Link to this sectionСети пирамид признаков и мультимасштабное обучение#

Сети пирамид признаков, часто называемые FPN, были представлены для решения проблемы потери пространственной детализации, и они работают как вспомогательный модуль, объединяющий информацию из нескольких слоев, чтобы модели могли более эффективно обнаруживать мелкие объекты. Этот процесс также известен как агрегация признаков и слияние признаков.

Мелкие слои обеспечивают точные пространственные детали, в то время как более глубокие слои добавляют семантический контекст, позволяя эффективно обучаться на мультимасштабных признаках. В отличие от простого апсэмплинга, который лишь увеличивает карты признаков, FPN сохраняет значимую информацию и улучшает обнаружение мелких объектов.

Современные подходы развивают эту идею, используя адаптивное слияние признаков и контекстно-зависимые дизайны для дальнейшего улучшения обнаружения мелких целей. Другими словами, FPN помогает моделям видеть одновременно и общую картину, и мельчайшие детали. Эта оптимизация важна, когда объекты маленькие.

Link to this sectionКак развивались модели обнаружения объектов для обработки мелких объектов#

Вот краткий обзор того, как модели обнаружения объектов эволюционировали и совершенствовались с течением времени для лучшего обнаружения объектов разных размеров, включая очень мелкие:

  • Ранние методы обнаружения: Ранние подходы к обнаружению объектов полагались на вручную созданные признаки и алгоритмы на основе правил, уходящие корнями в классическую обработку изображений. Поскольку эти признаки были фиксированными, производительность снижалась при работе с разными изображениями.
  • Внедрение машинного обучения и глубокого обучения: Принятие машинного обучения и глубокого обучения ознаменовало серьезный сдвиг в исследованиях обнаружения объектов. Вместо того чтобы полагаться на предопределенные правила, нейронные сети научились извлекать визуальные представления непосредственно из обучающих данных, улучшая адаптивность к изменяющимся размерам объектов и сценам.
  • Сверточные сети: Эти нейронные сети учатся видеть закономерности на изображениях. Каждый слой улавливает разные детали, начиная с простых границ и цветов, затем форм и, в конечном итоге, целых объектов, что делает их незаменимыми для современного компьютерного зрения.
  • Двухэтапные детекторы объектов: Двухэтапные детекторы, такие как Faster R-CNN, представленные Гиршиком и Реном, сначала генерировали области-кандидаты, а затем классифицировали их. Этот подход улучшил точность для мелких объектов, но увеличил вычислительные затраты и снизил производительность в реальном времени.
  • Одноэтапные детекторы объектов: Одноэтапные детекторы, такие как SSD (Single-Shot Detector) и семейство YOLO (You Only Look Once), включая YOLOv3, Ultralytics YOLOv5 и более поздний Ultralytics YOLOv8, выполняют обнаружение за один проход. Такой дизайн значительно повышает скорость инференса при сохранении конкурентной точности.
  • Новейшие современные модели: Более новые модели обнаружения объектов уделяют больше внимания производительности в реальном времени и развертыванию на периферии (edge). Последние релизы моделей Ultralytics YOLO, такие как Ultralytics YOLO11 и грядущая Ultralytics YOLO26, разработаны для баланса между высокой точностью и низкой задержкой инференса, что делает их хорошо подходящими для обнаружения объектов всех размеров, включая мелкие цели, на устройствах с ограниченной вычислительной мощностью.

Link to this sectionИспользование YOLO11 для кейсов обнаружения мелких объектов#

Теперь, когда у нас есть лучшее понимание того, как работает обнаружение мелких объектов, давайте взглянем на пару реальных применений, где можно применить YOLO11.

Link to this sectionUAV и аэрофотосъемка#

Представь дрон, летящий высоко над оживленной городской улицей. С такой высоты автомобили, велосипеды и даже люди сжимаются до нескольких пикселей на экране.

Модули UAV и аэрофотосъемки часто захватывают подобные сцены, где объекты интереса крошечные и окружены захламленным фоном, что делает их сложными для обнаружения моделями компьютерного зрения.

В таких сценариях YOLO11 может стать идеальным выбором модели. Например, дрон, оснащенный такой моделью, как YOLO11, мог бы следить за трафиком в режиме реального времени, обнаруживая транспортные средства, велосипедистов и пешеходов по мере их движения по сцене, даже когда каждый объект занимает лишь малую часть изображения. Это обеспечивает более быстрое принятие решений и получение более точных данных в таких приложениях, как управление дорожным движением, общественная безопасность или городское планирование.

Link to this sectionРобототехника и автоматизация#

Роботы часто используются в средах, где точность и время критически важны. В условиях складов, заводов и ферм робот может нуждаться в распознавании очень мелких объектов, таких как деталь на сборочной линии, этикетка на упаковке или маленький росток растения в поле, и быстро реагировать.

Обнаружение объектов такого размера может быть осложнено, особенно когда они выглядят как всего несколько пикселей в видеопотоке камеры или частично перекрыты другими объектами. Пропуск этих мелких деталей может замедлить автоматизацию или повлиять на способность робота выполнить задачу.

YOLO11 может изменить ситуацию в этих случаях. Улучшенное извлечение признаков и быстрый инференс позволяют роботам обнаруживать мелкие объекты в режиме реального времени и немедленно принимать меры.

YOLO11 также поддерживает сегментацию экземпляров (instance segmentation), которая может помочь роботам понимать границы объектов и точки захвата более точно, а не просто определять общие ограничивающие рамки. Например, робоманипулятор, интегрированный с YOLO11, может заметить мелкие компоненты на конвейере, сегментировать их точную форму и подхватить их до того, как они уйдут из зоны досягаемости, помогая системе оставаться эффективной и надежной.

Link to this sectionЧто делает YOLO11 эффективной для обнаружения мелких объектов#

С таким количеством моделей компьютерного зрения, доступных сегодня, ты можешь задаться вопросом, что именно выделяет Ultralytics YOLO11.

Вот несколько причин, почему Ultralytics YOLO11 — отличный вариант для приложений, где необходимо обнаруживать мелкие объекты:

  • Улучшенное извлечение признаков: YOLO11 использует улучшенную архитектуру бэкбона и шеи (neck) для усиления извлечения признаков, что обеспечивает более точное обнаружение объектов.
  • Экосистема и простота использования: Python-пакет Ultralytics — это библиотека, которая предоставляет встроенные функции для загрузки, обучения, валидации и развертывания таких моделей, как YOLO11. Поскольку для этих рабочих процессов требуется лишь несколько строк кода, команды могут быстро экспериментировать и дообучать модели для обнаружения мелких объектов.
  • Оптимизация для периферийных устройств: YOLO11 может эффективно работать на edge-устройствах, таких как NVIDIA Jetson, Raspberry Pi и промышленных системах камер. Проще говоря, это позволяет выполнять задачи ИИ-зрения в реальном времени прямо на устройстве.

Link to this sectionПрактические стратегии, которые стоит использовать при обнаружении мелких объектов с помощью YOLO11#

Помимо использования такой модели, как YOLO11, способ подготовки аннотаций, общий набор данных и процедура обучения модели могут оказать существенное влияние на производительность обнаружения.

Вот краткий обзор того, на чем стоит сосредоточиться:

  • Правильная аугментация данных: Легкая аугментация данных, такая как масштабирование или кадрирование, может помочь модели обобщать новые изображения. Однако агрессивная крупномасштабная аугментация может исказить или удалить мелкие объекты, затрудняя обучение модели.
  • Анализ ошибок: Изучение случаев, когда модель пропускает или ошибочно идентифицирует объекты, помогает создать базу и выявить, связаны ли проблемы с набором данных, потерей информации во время извлечения признаков или необходимостью корректировки настроек обучения.
  • Состав набора данных: Твой набор данных должен содержать достаточно примеров мелких объектов, чтобы модель могла изучить значимые закономерности, и он должен оставаться сбалансированным, чтобы более крупные объекты не затмевали мелкие во время обучения.

Link to this sectionОсновные выводы#

Обнаружение мелких объектов — сложная задача, потому что мелкие цели теряют детализацию по мере прохождения изображений через модель компьютерного зрения. YOLO11 улучшает процесс сохранения этих деталей, делая обнаружение мелких объектов более надежным без ущерба для производительности в реальном времени. Этот баланс позволяет YOLO11 поддерживать точное и эффективное обнаружение в реальных приложениях.

Присоединяйся к нашему растущему сообществу! Изучи наш репозиторий на GitHub, чтобы узнать больше об ИИ. Открывай для себя инновации, такие как компьютерное зрение в ритейле и ИИ в автомобильной промышленности, посещая страницы наших решений. Чтобы начать создавать с помощью компьютерного зрения уже сегодня, ознакомься с нашими вариантами лицензирования.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения