Что такое маска R-CNN и как она работает?

Абирами Вина

4 мин. чтения

21 марта 2025 г.

Узнайте, как с помощью Mask R-CNN можно точно сегментировать объекты на изображениях и видео в различных сферах применения.

Такие инновации, как роботы на складах, самоуправляемые автомобили, безопасно передвигающиеся по оживленным улицам, беспилотники, проверяющие урожай, и системы искусственного интеллекта, проверяющие продукцию на заводах, становятся все более распространенными по мере внедрения ИИ. Ключевой технологией, стимулирующей эти инновации, является компьютерное зрение- направление ИИ, позволяющее машинам понимать и интерпретировать визуальные данные.

Например, обнаружение объектов - это задача компьютерного зрения, которая помогает идентифицировать и находить объекты на изображениях с помощью ограничительных рамок. Хотя ограничительные рамки предоставляют полезную информацию, они дают лишь приблизительную оценку положения объекта и не могут передать его точную форму или границы. Это делает их менее эффективными в приложениях, требующих точной идентификации.

Чтобы решить эту проблему, исследователи разработали модели сегментации, которые передают точные контуры объектов, обеспечивая детализацию на уровне пикселей для более точного обнаружения и анализа.

Mask R-CNN - одна из таких моделей. Представленная в 2017 году компанией Facebook AI Research (FAIR), она является развитием более ранних моделей, таких как R-CNN, Fast R-CNN и Faster R-CNN. Являясь важной вехой в истории компьютерного зрения, Mask R-CNN проложила путь для более продвинутых моделей, таких как Ultralytics YOLO11.

В этой статье мы рассмотрим, что такое Mask R-CNN, как он работает, его применение и какие усовершенствования появились после него, приведя к YOLO11.

Обзор R-CNN Маска

Mask R-CNN, что расшифровывается как Mask Region-based Convolutional Neural Network, - это модель глубокого обучения, предназначенная для задач компьютерного зрения, таких как обнаружение объектов и сегментация экземпляров. 

Сегментация объектов выходит за рамки традиционного обнаружения объектов, позволяя не только идентифицировать их на изображении, но и точно очертить каждый из них. Он присваивает каждому обнаруженному объекту уникальную метку и фиксирует его точную форму на уровне пикселей. Такой детальный подход позволяет четко различать перекрывающиеся объекты и точно обрабатывать сложные формы.

Mask R-CNN основан на Faster R-CNN, который обнаруживает и маркирует объекты, но не определяет их точные формы. Mask R-CNN улучшает эту функцию, определяя точные пиксели, из которых состоит каждый объект, что позволяет проводить гораздо более детальный и точный анализ изображений.

__wf_reserved_inherit
Рис. 1. Сравнение обнаружения объектов и сегментации экземпляров.

Обзор архитектуры Mask R-CNN и принципов ее работы

Mask R-CNN использует пошаговый подход для точного обнаружения и сегментирования объектов. Он начинается с извлечения ключевых признаков с помощью глубокой нейронной сети (многослойной модели, которая обучается на основе данных), затем определяет потенциальные области объектов с помощью сети предложения областей (компонента, который предлагает вероятные области объектов) и, наконец, уточняет эти области путем создания подробных масок сегментации (точных контуров объектов), которые передают точную форму каждого объекта.

Далее мы рассмотрим каждый шаг, чтобы лучше понять, как работает Mask R-CNN.

__wf_reserved_inherit
Рис. 2. Обзор архитектуры Mask R-CNN.

Начиная с извлечения признаков

Первый шаг в архитектуре Mask R-CNN - разбить изображение на ключевые части, чтобы модель могла понять, что в нем находится. Подумайте об этом, как если бы вы смотрели на фотографию и, естественно, замечали такие детали, как формы, цвета и края. Модель делает нечто подобное с помощью глубокой нейронной сети, называемой "хребтом" (часто ResNet-50 или ResNet-101), которая действует как глаза, сканируя изображение и улавливая ключевые детали.

Поскольку объекты на изображениях могут быть очень маленькими или очень большими, в Mask R-CNN используется сеть Feature Pyramid Network. Это похоже на наличие различных увеличительных стекол, которые позволяют модели видеть как мелкие детали, так и общую картину, гарантируя, что будут замечены объекты любого размера.

После извлечения этих важных признаков модель переходит к определению местоположения потенциальных объектов на изображении, создавая основу для дальнейшего анализа.

Предложение потенциальных областей на изображении с помощью объектов

После того как изображение было обработано для выявления ключевых особенностей, за дело берется Сеть предложения регионов. Эта часть модели рассматривает изображение и предлагает области, в которых могут находиться объекты.

Для этого генерируется множество возможных местоположений объекта, называемых якорями. Затем сеть оценивает эти якоря и выбирает наиболее перспективные из них для дальнейшего анализа. Таким образом, модель фокусируется только на наиболее вероятных интересных областях, а не проверяет каждую точку на изображении.

__wf_reserved_inherit
Рис. 3. Пример сети региональных предложений.

Улучшение извлеченных признаков 

Когда ключевые области определены, следующий шаг - уточнение деталей, извлеченных из этих областей. В более ранних моделях использовался метод, называемый ROI Pooling (Region of Interest Pooling), для захвата особенностей из каждой области, но эта техника иногда приводила к небольшим смещениям при изменении размера областей, что делало ее менее эффективной - особенно для небольших или перекрывающихся объектов.

Mask R-CNN улучшает эту задачу, используя технику, называемую ROI Align (выравнивание области интереса). Вместо округления координат, как это делает ROI Pooling, ROI Align использует билинейную интерполяцию для более точной оценки значений пикселей. Билинейная интерполяция - это метод, который вычисляет новое значение пикселя путем усреднения значений четырех ближайших соседей, что создает более плавные переходы. Это позволяет сохранить правильное выравнивание характеристик по отношению к исходному изображению, что приводит к более точному обнаружению и сегментации объектов.

Например, во время футбольного матча два игрока, стоящие близко друг к другу, могут быть приняты за одного из-за того, что их ограничительные рамки накладываются друг на друга. ROI Align помогает разделить их, сохраняя различия в их формах. 

__wf_reserved_inherit
Рис. 4. Маска R-CNN использует ROI Align.

Классификация объектов и предсказание их масок

После того как ROI Align обработает изображение, следующим шагом будет классификация объектов и точная настройка их местоположения. Модель рассматривает каждую выделенную область и решает, какой объект в ней находится. Она присваивает различным категориям оценку вероятности и выбирает наилучшее соответствие.

В то же время он корректирует ограничительные рамки, чтобы они лучше соответствовали объектам. Первоначальные рамки могут быть расположены не идеально, поэтому это помогает повысить точность, обеспечивая плотное прилегание каждой рамки к обнаруженному объекту.

Наконец, Mask R-CNN делает дополнительный шаг: параллельно генерирует детальную маску сегментации для каждого объекта.

Маска R-CNN и ее применение в реальном времени

Когда эта модель появилась, она вызвала большой ажиотаж в сообществе ИИ и вскоре стала использоваться в различных приложениях. Способность обнаруживать и сегментировать объекты в режиме реального времени сделала ее революционной для различных отраслей.

Например, отслеживание исчезающих животных в дикой природе - сложная задача. Многие виды перемещаются по густым лесам, поэтому природоохранникам сложно за ними уследить. Традиционные методы используют фотоловушки, беспилотники и спутниковые снимки, но сортировка всех этих данных вручную отнимает много времени. Ошибки в идентификации и пропущенные встречи могут замедлить работу по охране природы.

Распознавая уникальные особенности, такие как полосы тигра, пятна жирафа или форма ушей слона, Mask R-CNN может с большей точностью обнаруживать и сегментировать животных на изображениях и видео. Даже если животные частично скрыты деревьями или стоят близко друг к другу, модель может разделить их и идентифицировать каждого в отдельности, что делает мониторинг дикой природы более быстрым и надежным.

__wf_reserved_inherit
Рис. 5. Обнаружение и сегментирование животных с помощью масочной R-CNN.

Ограничения маски R-CNN

Несмотря на свою историческую значимость для обнаружения и сегментации объектов, масочная R-CNN также имеет ряд ключевых недостатков. Вот некоторые проблемы, связанные с Mask R-CNN:

  • Высокие вычислительные требования: Он опирается на мощные графические процессоры, что может сделать его дорогостоящим и медленным при обработке больших объемов данных.

  • Низкая скорость обработки: многоступенчатый процесс делает его более медленным по сравнению с более быстрыми моделями реального времени, такими как YOLO, что может быть не идеальным для задач, чувствительных ко времени.

  • Зависимость от высококачественных данных: Модель лучше всего работает с четкими, хорошо маркированными изображениями. Размытые или плохо освещенные изображения могут значительно снизить ее точность.
  • Сложная реализация: Многоступенчатая архитектура может быть сложной в настройке и оптимизации, особенно при работе с большими массивами данных или ограниченными ресурсами.

От маски R-CNN к ультралитике YOLO11

Масочные R-CNN отлично подходили для задач сегментации, но многие отрасли стремились внедрить компьютерное зрение, отдавая предпочтение скорости и производительности в реальном времени. Это требование привело исследователей к разработке одноступенчатых моделей, которые обнаруживают объекты за один проход, значительно повышая эффективность.

В отличие от многоступенчатого процесса Mask R-CNN, одноступенчатые модели компьютерного зрения, такие как YOLO (You Only Look Once), ориентированы на задачи компьютерного зрения в реальном времени. Вместо того чтобы отдельно заниматься обнаружением и сегментацией, модели YOLO могут анализировать изображение за один раз. Это делает их идеальными для таких приложений, как автономное вождение, здравоохранение, производство и робототехника, где быстрое принятие решений имеет решающее значение.

В частности, YOLO11 делает еще один шаг вперед, будучи одновременно быстрым и точным. Он использует на 22 % меньше параметров, чем YOLOv8m, но при этом достигает более высокой средней точности (mAP) на наборе данных COCO, что означает более точное обнаружение объектов. Повышенная скорость обработки данных делает его отличным выбором для приложений реального времени, где важна каждая миллисекунда.

__wf_reserved_inherit
Рис. 6. Производительность YOLO11 в сравнении с другими моделями.

Основные выводы

Оглядываясь на историю компьютерного зрения, можно сказать, что Mask R-CNN - это серьезный прорыв в области обнаружения и сегментации объектов. Он обеспечивает очень точные результаты даже в сложных условиях благодаря подробному многоступенчатому процессу. 

Однако этот же процесс делает его более медленным по сравнению с моделями реального времени, такими как YOLO. Поскольку потребность в скорости и эффективности растет, во многих приложениях теперь используются одноэтапные модели, такие как Ultralytics YOLO11, которые обеспечивают быстрое и точное обнаружение объектов. Хотя R-CNN Маска важна для понимания эволюции компьютерного зрения, тенденция к созданию решений реального времени подчеркивает растущий спрос на более быстрые и эффективные решения для компьютерного зрения.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий GitHub, чтобы узнать больше об искусственном интеллекте. Готовы начать собственные проекты по компьютерному зрению? Ознакомьтесь с нашими возможностями лицензирования. Откройте для себя ИИ в сельском хозяйстве и ИИ зрения в здравоохранении, посетив страницы наших решений! 

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена