Как улучшить mAP модели mAP небольших объектах: краткое руководство
Узнайте, как улучшить mAP модели mAP небольших объектов, воспользовавшись практическими советами по качеству данных, аугментации, стратегиям обучения, оценке и развертыванию.
Узнайте, как улучшить mAP модели mAP небольших объектов, воспользовавшись практическими советами по качеству данных, аугментации, стратегиям обучения, оценке и развертыванию.
По мере роста популярности искусственного интеллекта (ИИ), машинного обучения и компьютерного зрения системы обнаружения объектов находят повсеместное применение — от интеллектуальных дорожных камер до дронов и инструментов аналитики в розничной торговле. Часто от этих систем ожидают detect всех размеров, будь то большой грузовик рядом с камерой или крошечный пешеход на большом расстоянии.
Как правило, обнаружение крупных и хорошо заметных объектов является более простым. Напротив, обнаружение мелких объектов является более сложной задачей.
Когда объект занимает лишь небольшую часть изображения, визуальной информации для работы остается очень мало. Далекий пешеход на дороге или небольшой автомобиль, снятый с воздуха, могут занимать всего несколько пикселей, но эти пиксели могут нести важную информацию.
Модели компьютерного зрения, такие какYOLO Ultralytics YOLO , полагаются на визуальные шаблоны для распознавания объектов, и когда эти шаблоны ограничены или неясны, производительность страдает. Во время обработки могут быть упущены важные детали, что делает прогнозы более чувствительными к ошибкам локализации. Даже небольшое смещение ограничивающей рамки может превратить правильное обнаружение в пропущенное.
Этот разрыв становится очевидным, когда мы смотрим на производительность модели. Большинство моделей обнаружения и сегментации хорошо справляются со средними и крупными объектами, но мелкие объекты часто снижают общую точность.
Эффективность глубокого обучения обычно измеряется с помощью средней средней точности( mAP). Этот показатель отражает как точность обнаружения, так и степень соответствия прогнозируемых рамок реальным объектам.
Он сочетает в себе точность, которая показывает, сколько прогнозируемых объектов является правильными, и полноту, которая показывает, сколько фактических объектов успешно обнаружено, при различных уровнях достоверности и порогах пересечения над объединением IoU показатель, который измеряет, насколько прогнозируемая ограничивающая рамка пересекается с рамкой реальной действительности).
Ранее мы рассмотрели проблему обнаружения мелких объектов и объяснили, почему она является такой сложной для моделей компьютерного зрения. В этой статье мы будем опираться на полученные знания и сосредоточимся на том, как улучшить mAP обнаружении мелких объектов. Приступим!
Когда речь идет о приложениях, в которых используются детекторы объектов, небольшой объект определяется по тому, сколько места он занимает на изображении, а не по тому, насколько он кажется маленьким для человеческого глаза. Если он занимает лишь небольшую часть изображения, он содержит очень мало визуальной информации, что затрудняет его detect алгоритмом компьютерного зрения.

При меньшем количестве пикселей важные детали, такие как края, формы и текстуры, могут быть нечеткими или легко утрачиваться. По мере обработки изображения моделью оно изменяется в размере и упрощается, чтобы выделить полезные шаблоны.
Хотя это помогает модели понять общую картину, оно также может еще больше уменьшить мелкие детали. Для небольших объектов эти детали часто имеют решающее значение для правильного распознавания.
Эти проблемы становятся еще более очевидными при рассмотрении показателей оценки. Небольшие объекты особенно чувствительны к ошибкам локализации. Даже слегка смещенная ограничительная рамка может оказаться ниже требуемого порога пересечения над объединением ( IoU).
Когда это происходит, прогноз, который выглядит разумным, может быть признан неверным. Это снижает как точность, так и полноту, что в конечном итоге снижает среднюю среднюю точность, или mAP.
Поскольку эти факторы тесно связаны между собой, для повышения производительности часто необходимо учитывать всю систему в целом. Это означает, что необходимо тщательно сбалансировать разрешение изображения, извлечение признаков, дизайн модели и настройки оценки, чтобы мелкие визуальные детали лучше сохранялись и интерпретировались.
Когда речь идет об обнаружении мелких объектов, качество набора данных часто имеет решающее значение для производительности. Мелкие объекты занимают лишь небольшую часть изображения, а это означает, что модель имеет очень мало визуальной информации для обучения. Из-за этого обучающие данные становятся особенно важными. Если набор данных не содержит достаточно четких и репрезентативных примеров, модель обнаружения объектов будет испытывать трудности с распознаванием последовательных паттернов.
Наборы данных, которые хорошо подходят для обнаружения небольших объектов, обычно содержат изображения с высоким разрешением, частые появления небольших целей и стабильные визуальные условия. Хотя общие наборы данных, такие как COCO , являются полезной отправной точкой, они часто не соответствуют масштабу, плотности или контексту конкретных реальных случаев использования. В таких случаях для улучшения производительности модели необходимо собрать обучающие данные, специфичные для данной области.
Качество аннотаций также играет важную роль. Аннотации устанавливают базовую достоверность, указывая правильные метки объектов и расположение ограничительных рамок, которые модель учится предсказывать.
Для небольших объектов ограничительные рамки должны быть нарисованы аккуратно и последовательно. Даже небольшие различия в размещении рамок могут заметно повлиять на точность локализации, поскольку небольшие объекты очень чувствительны к сдвигам на уровне пикселей.
Некачественные или непоследовательные аннотации могут значительно снизить mAP. Если объекты маркированы неправильно, модель обучается на неверных шаблонах, что может увеличить количество ложных срабатываний.
Если объекты появляются на изображении, но отсутствуют в реальных данных, правильные обнаружения могут быть учтены как ложные срабатывания во время оценки. Обе ситуации снижают общую производительность.
Интересно, что недавние исследования показывают, что средняя точность для небольших объектов часто остается в пределах от 20% до 40% по стандартным тестам, что значительно ниже, чем для более крупных объектов. Этот разрыв подчеркивает важность дизайна набора данных и согласованности аннотаций для общей точности обнаружения.
Теперь, когда мы лучше понимаем важность качества набора данных и согласованности аннотаций, давайте рассмотрим, как модель обнаружения объектов может более эффективно обучаться на основе существующих данных. Даже если сбор дополнительных изображений затруднен или дорогостоящ, все равно есть способы улучшить производительность за счет более эффективного использования уже имеющихся данных.
Одним из наиболее практичных подходов является аугментация данных. Она играет особенно важную роль в обнаружении небольших объектов, поскольку небольшие объекты предоставляют меньше визуальных подсказок, на которых может обучаться модель. Внедряя контролируемые вариации во время обучения, аугментация помогает модели лучше обобщать данные без необходимости сбора новых данных.
Эффективное увеличение объема данных направлено на то, чтобы мелкие объекты оставались хорошо видимыми. Такие методы, как контролируемое изменение размера, легкая обрезка и мозаичное расположение изображений, позволяют выделить мелкие объекты, сохранив их форму и внешний вид. Цель состоит в том, чтобы помочь модели чаще видеть мелкие объекты в слегка измененных условиях, не изменяя их внешний вид в реальных ситуациях.
Однако аугментацию необходимо применять с осторожностью. Некоторые преобразования могут снизить видимость небольших объектов или изменить их внешний вид таким образом, который вряд ли встретится в реальных данных. В этом случае модель может затрудниться с определением точных границ объектов.
Еще одним интересным типом расширения данных, который становится все более популярным, является использование генеративного ИИ для создания синтетических обучающих данных. Вместо того, чтобы полагаться на вручную собранные и помеченные изображения, команды теперь могут генерировать реалистичные сцены, которые имитируют определенные среды, размеры объектов, условия освещения и вариации фона.

Этот подход особенно полезен для обнаружения небольших объектов, когда реальные примеры может быть сложно зафиксировать последовательно. Контролируя то, как небольшие объекты отображаются в синтетических изображениях, например, регулируя масштаб, плотность и расположение, можно подвергнуть модели более широкому спектру сценариев обучения.
При тщательном сочетании с реальными данными синтетическое дополнение может повысить надежность модели, снизить затраты на сбор данных и способствовать более целенаправленному улучшению производительности.
Помимо качества набора данных и согласованности аннотаций, выбор метода обучения модели также оказывает сильное влияние на эффективность обнаружения мелких объектов.
Вот некоторые из ключевых стратегий обучения, которые следует учитывать:
Хотя для задач, связанных с небольшими объектами, можно использовать общую модель обнаружения объектов, существуют также архитектуры моделей, специально разработанные для улучшения обнаружения небольших объектов. Например, существуют варианты модели P2 Ultralytics YOLOv8 , которые оптимизированы для сохранения мелких пространственных деталей.
YOLOv8 изображения в нескольких масштабах, постепенно уменьшая их по мере продвижения по сети. Это помогает модели понять общую картину, но также уменьшает мелкие детали.
Когда объект уже очень маленький, важная визуальная информация может исчезнуть в ходе этого процесса. Вариант P2 Ultralytics YOLOv8 эту проблему, используя шаг 2 в своей пирамиде признаков.
Пирамида признаков — это часть модели, которая анализирует изображение с несколькими внутренними разрешениями, чтобы detect разных размеров. При шаге 2 изображение на этом этапе уменьшается более постепенно, что позволяет сохранить больше деталей на уровне пикселей.
Благодаря сохранению большего количества пространственных деталей, мелкие объекты сохраняют более видимую структуру внутри сети. Это упрощает локализацию и detect , занимающих всего несколько пикселей, что может помочь улучшить mAP для мелких объектов.
Хотя средняя точность обобщает общую производительность модели, она не всегда показывает, насколько хорошо модель обрабатывает объекты разных размеров. Для небольших объектов производительность часто ограничивается точностью локализации, а не только классификацией, что означает, что небольшие сдвиги ограничивающей рамки могут значительно повлиять на результаты.
Другими словами, модель может правильно определить класс объекта, но если прогнозируемая ограничительная рамка слегка смещена, обнаружение все равно может считаться неверным. Поскольку небольшие объекты занимают лишь небольшое количество пикселей, даже незначительное смещение рамки может значительно уменьшить перекрытие между прогнозируемой рамкой и реальным положением объекта. В результате оценка может снизиться, даже если объект был идентифицирован правильно.

Более информативный подход заключается в оценке производительности по размеру объекта. В большинстве широко используемых тестов средняя точность указывается отдельно для малых, средних и больших объектов.
Эта разбивка по размерам дает более четкое представление о том, в каких случаях модель работает хорошо, а в каких — испытывает трудности. На практике AP для небольших объектов часто отстает от общего mAP, что подчеркивает проблемы локализации, которые могут быть неочевидны в агрегированных метриках.
Производительность модели часто меняется при переходе от контролируемой тестовой среды к реальному развертыванию. Такие факторы, как разрешение изображения, скорость обработки и доступное оборудование, приводят к компромиссам, которые напрямую влияют на обнаружение мелких объектов.
Например, увеличение разрешения входных данных может улучшить mAP для небольших объектов, mAP небольшие цели занимают больше пикселей и сохраняют больше деталей. Однако более высокое разрешение также увеличивает использование памяти и время обработки. Это может замедлить вывод и повысить эксплуатационные расходы.

Выбор оборудования играет ключевую роль в управлении этими компромиссами. Более мощные графические процессоры позволяют использовать более крупные модели и ускорить обработку, но среды развертывания, особенно периферийные устройства, часто имеют ограниченные вычислительные ресурсы и объем памяти.
Приложения, работающие в режиме реального времени, добавляют еще одно ограничение: для поддержания низкой задержки может потребоваться уменьшение размера модели или разрешения ввода, что может негативно повлиять на воспроизведение мелких объектов. В конечном итоге, при принятии решений о развертывании необходимо найти баланс между эффективностью обнаружения, ограничениями аппаратного обеспечения, требованиями к скорости и общей стоимостью.
Улучшение обнаружения мелких объектов требует практического и структурированного подхода, особенно при работе в реальных условиях. Ниже приведен обзор основных шагов, о которых следует помнить:
Для улучшения mAP небольших объектов требуется структурированный подход, основанный на данных, а не случайные настройки. Реальные улучшения достигаются за счет сочетания качественных данных, последовательных аннотаций, тщательного обучения и правильных методов оценки. В реальных проектах постоянное тестирование и небольшие, измеримые изменения со временем приводят к более качественному и надежному обнаружению небольших объектов.
Присоединяйтесь к нашему растущему сообществу и изучите наш репозиторий GitHub, где вы найдете практические ресурсы по искусственному интеллекту. Чтобы начать работу с искусственным интеллектом на основе зрения уже сегодня, ознакомьтесь с нашими вариантами лицензирования. Узнайте, как искусственный интеллект в сельском хозяйстве меняет фермерство и как искусственный интеллект на основе зрения в робототехнике формирует будущее, посетив наши страницы с решениями.