Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Что такое Mask R-CNN и как это работает?

Абирами Вина

4 мин чтения

21 марта 2025 г.

Узнайте, как Mask R-CNN можно использовать для точной сегментации объектов на изображениях и видео для различных приложений в разных секторах.

Инновации, такие как роботы на складах, самоуправляемые автомобили, безопасно передвигающиеся по оживленным улицам, дроны, проверяющие посевы, и системы искусственного интеллекта, проверяющие продукцию на заводах, становятся все более распространенными по мере увеличения внедрения ИИ. Ключевой технологией, лежащей в основе этих инноваций, является компьютерное зрение — раздел ИИ, который позволяет машинам понимать и интерпретировать визуальные данные.

Например, обнаружение объектов — это задача компьютерного зрения, которая помогает идентифицировать и находить объекты на изображениях с помощью ограничивающих рамок. Хотя ограничивающие рамки предоставляют полезную информацию, они дают лишь приблизительную оценку положения объекта и не могут зафиксировать его точную форму или границы. Это делает их менее эффективными в приложениях, требующих точной идентификации.

Чтобы решить эту проблему, исследователи разработали модели сегментации, которые фиксируют точные контуры объектов, предоставляя детали на уровне пикселей для более точного обнаружения и анализа.

Mask R-CNN — одна из таких моделей. Представленная в 2017 году компанией Facebook AI Research (FAIR), она основана на более ранних моделях, таких как R-CNN, Fast R-CNN и Faster R-CNN. Являясь важной вехой в истории компьютерного зрения, Mask R-CNN проложила путь для более продвинутых моделей, таких как Ultralytics YOLO11.

В этой статье мы рассмотрим, что такое Mask R-CNN, как она работает, ее применение и какие улучшения произошли после нее, что привело к YOLO11.

Обзор Mask R-CNN

Mask R-CNN, что расшифровывается как Mask Region-based Convolutional Neural Network (масочная региональная сверточная нейронная сеть), — это модель глубокого обучения, предназначенная для задач компьютерного зрения, таких как обнаружение объектов и сегментация экземпляров. 

Сегментация экземпляров выходит за рамки традиционного обнаружения объектов, не только идентифицируя объекты на изображении, но и точно очерчивая каждый из них. Она присваивает уникальную метку каждому обнаруженному объекту и фиксирует его точную форму на уровне пикселей. Этот детальный подход позволяет четко различать перекрывающиеся объекты и точно обрабатывать сложные формы.

Mask R-CNN основана на Faster R-CNN, которая обнаруживает и маркирует объекты, но не определяет их точные формы. Mask R-CNN улучшает это, определяя точные пиксели, составляющие каждый объект, что позволяет проводить гораздо более детальный и точный анализ изображений.

Рис. 1. Сравнение обнаружения объектов и сегментации экземпляров.

Обзор архитектуры Mask R-CNN и принципов ее работы

Mask R-CNN использует пошаговый подход для точного обнаружения и сегментации объектов. Он начинается с извлечения ключевых признаков с использованием глубокой нейронной сети (многослойной модели, которая обучается на данных), затем определяет потенциальные области объектов с помощью сети предложений регионов (компонента, который предлагает вероятные области объектов) и, наконец, уточняет эти области, создавая подробные маски сегментации (точные контуры объектов), которые фиксируют точную форму каждого объекта.

Далее мы рассмотрим каждый шаг, чтобы лучше понять, как работает Mask R-CNN.

Рис. 2. Обзор архитектуры Mask R-CNN (Источник: researchgate.net).

Начиная с извлечения признаков

Первый шаг в архитектуре Mask R-CNN — разбить изображение на ключевые части, чтобы модель могла понять, что в нем находится. Представьте, что вы смотрите на фотографию и естественным образом замечаете такие детали, как формы, цвета и края. Модель делает нечто подобное, используя глубокую нейронную сеть, называемую "backbone" (часто ResNet-50 или ResNet-101), которая действует как ее глаза, сканируя изображение и улавливая ключевые детали.

Поскольку объекты на изображениях могут быть очень маленькими или очень большими, Mask R-CNN использует Feature Pyramid Network. Это похоже на наличие разных увеличительных стекол, которые позволяют модели видеть как мелкие детали, так и общую картину, гарантируя, что объекты всех размеров будут замечены.

После того как эти важные характеристики извлечены, модель переходит к определению местоположения потенциальных объектов на изображении, подготавливая почву для дальнейшего анализа.

Предложение потенциальных областей на изображении с объектами

После того как изображение было обработано для выделения ключевых признаков, в дело вступает Region Proposal Network. Эта часть модели рассматривает изображение и предлагает области, которые, вероятно, содержат объекты.

Это достигается путем генерации нескольких возможных местоположений объектов, называемых якорями. Затем сеть оценивает эти якоря и выбирает наиболее перспективные для дальнейшего анализа. Таким образом, модель фокусируется только на областях, которые с наибольшей вероятностью представляют интерес, а не проверяет каждое место на изображении.

Рис. 3. Пример сети Region Proposal Network.

Улучшение извлеченных признаков 

После определения ключевых областей следующим шагом является уточнение деталей, извлеченных из этих регионов. Более ранние модели использовали метод, называемый ROI Pooling (объединение областей интереса), для захвата признаков из каждой области, но этот метод иногда приводил к небольшим смещениям при изменении размера областей, что делало его менее эффективным, особенно для небольших или перекрывающихся объектов.

Mask R-CNN улучшает это за счет использования техники, называемой ROI Align (выравнивание области интереса). Вместо округления координат, как это делает ROI Pooling, ROI Align использует билинейную интерполяцию для более точной оценки значений пикселей. Билинейная интерполяция — это метод, который вычисляет новое значение пикселя путем усреднения значений четырех ближайших соседей, что создает более плавные переходы. Это обеспечивает правильное выравнивание признаков с исходным изображением, что приводит к более точному обнаружению и сегментации объектов.

Например, в футбольном матче двух игроков, стоящих близко друг к другу, можно ошибочно принять за одного, потому что их ограничивающие рамки перекрываются. ROI Align помогает разделить их, сохраняя их формы отчетливыми. 

Рис. 4. Mask R-CNN использует ROI Align.

Классификация объектов и прогнозирование их масок

После того как ROI Align обработает изображение, следующим шагом является классификация объектов и точная настройка их местоположения. Модель рассматривает каждый извлеченный регион и решает, какой объект он содержит. Она присваивает оценку вероятности различным категориям и выбирает наилучшее соответствие.

В то же время он корректирует ограничивающие рамки, чтобы лучше соответствовать объектам. Первоначальные рамки могут быть расположены не идеально, поэтому это помогает повысить точность, гарантируя, что каждая рамка плотно окружает обнаруженный объект.

Наконец, Mask R-CNN делает дополнительный шаг: он генерирует подробную маску сегментации для каждого объекта параллельно.

Mask R-CNN и ее приложения в реальном времени

Когда эта модель вышла, она вызвала большой ажиотаж в ИИ-сообществе и вскоре стала использоваться в различных приложениях. Ее способность обнаруживать и сегментировать объекты в режиме реального времени произвела революцию в различных отраслях.

Например, отслеживание исчезающих видов животных в дикой природе является сложной задачей. Многие виды перемещаются по густым лесам, что затрудняет отслеживание их природоохранными организациями. В традиционных методах используются фотоловушки, дроны и спутниковые снимки, но ручная сортировка всех этих данных занимает много времени. Неправильная идентификация и пропущенные наблюдения могут замедлить усилия по сохранению.

Распознавая уникальные особенности, такие как тигриные полосы, пятна жирафа или форма ушей слона, Mask R-CNN может обнаруживать и сегментировать животных на изображениях и видео с большей точностью. Даже когда животные частично скрыты деревьями или стоят близко друг к другу, модель может разделять их и идентифицировать каждое по отдельности, что делает мониторинг дикой природы более быстрым и надежным.

Рис. 5. Обнаружение и сегментация животных с использованием Mask R-CNN.

Ограничения Mask R-CNN

Несмотря на свою историческую значимость в обнаружении и сегментации объектов, Mask R-CNN также имеет некоторые ключевые недостатки. Вот некоторые проблемы, связанные с Mask R-CNN:

  • Высокие вычислительные требования: Она опирается на мощные графические процессоры, что может сделать ее дорогостоящей в эксплуатации и медленной при обработке больших объемов данных.

  • Более медленная скорость обработки: Многоэтапный процесс замедляет работу по сравнению с более быстрыми моделями реального времени, такими как YOLO, что может быть не идеальным для задач, требующих быстрого реагирования.

  • Зависимость от высококачественных данных: Модель лучше всего работает с четкими, хорошо размеченными изображениями. Размытые или плохо освещенные изображения могут значительно снизить ее точность.
  • Сложная реализация: Многоступенчатую архитектуру может быть сложно настроить и оптимизировать, особенно при работе с большими наборами данных или ограниченными ресурсами.

От Mask R-CNN до Ultralytics YOLO11

Mask R-CNN отлично подходила для задач сегментации, но многие отрасли стремились внедрить компьютерное зрение, уделяя приоритетное внимание скорости и производительности в реальном времени. Это требование привело исследователей к разработке одноэтапных моделей, которые обнаруживают объекты за один проход, что значительно повышает эффективность.

В отличие от многоэтапного процесса Mask R-CNN, одноэтапные модели компьютерного зрения, такие как YOLO (You Only Look Once), ориентированы на задачи компьютерного зрения в реальном времени. Вместо раздельной обработки обнаружения и сегментации, модели YOLO могут анализировать изображение за один проход. Это делает их идеальными для таких приложений, как автономное вождение, здравоохранение, производство и робототехника, где быстрое принятие решений имеет решающее значение.

В частности, YOLO11 делает еще один шаг вперед, будучи одновременно быстрым и точным. Он использует на 22% меньше параметров, чем YOLOv8m, но при этом достигает более высокой средней точности (mAP) на наборе данных COCO, что означает, что он более точно обнаруживает объекты. Улучшенная скорость обработки делает его хорошим выбором для приложений реального времени, где важна каждая миллисекунда.

Рис. 6. Сравнение производительности YOLO11 с другими моделями.

Основные выводы

Оглядываясь на историю компьютерного зрения, Mask R-CNN признана крупным прорывом в обнаружении и сегментации объектов. Она обеспечивает очень точные результаты даже в сложных условиях благодаря детальному многоэтапному процессу. 

Однако, этот же процесс делает его более медленным по сравнению с моделями реального времени, такими как YOLO. Поскольку потребность в скорости и эффективности растет, многие приложения теперь используют одноэтапные модели, такие как Ultralytics YOLO11, которые предлагают быстрое и точное обнаружение объектов. Хотя Mask R-CNN важна для понимания эволюции компьютерного зрения, тенденция к решениям реального времени подчеркивает растущий спрос на более быстрые и эффективные решения компьютерного зрения.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ. Готовы начать свои собственные проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в сельском хозяйстве и Vision AI в здравоохранении, посетив страницы наших решений! 

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена