Что такое Mask R-CNN и как это работает?
Узнай, как Mask R-CNN можно использовать для точной сегментации объектов на изображениях и видео для различных задач в разных секторах.

Инновации, такие как роботы на складах, беспилотные автомобили, безопасно маневрирующие на оживленных улицах, дроны для мониторинга сельскохозяйственных культур и системы ИИ для контроля качества продукции на производстве, становятся все более привычными по мере роста внедрения ИИ. Ключевая технология, лежащая в основе этих инноваций, — computer vision, раздел ИИ, позволяющий машинам понимать и интерпретировать визуальные данные.
Например, обнаружение объектов (object detection) — это задача computer vision, которая помогает находить и локализовать объекты на изображениях с помощью ограничивающих рамок (bounding boxes). Хотя эти рамки предоставляют полезную информацию, они дают лишь приблизительную оценку положения объекта и не могут передать его точную форму или границы. Это делает их менее эффективными в задачах, требующих точной идентификации.
Для решения этой проблемы исследователи разработали модели сегментации, которые позволяют улавливать точные контуры объектов, предоставляя детализацию на уровне пикселей для более точного обнаружения и анализа.
Mask R-CNN — одна из таких моделей. Представленная в 2017 году подразделением Facebook AI Research (FAIR), она базируется на более ранних моделях, таких как R-CNN, Fast R-CNN и Faster R-CNN. Будучи важной вехой в истории computer vision, Mask R-CNN проложила путь для более совершенных моделей, таких как Ultralytics YOLO11.
В этой статье мы разберемся, что такое Mask R-CNN, как она работает, где применяется и какие улучшения последовали за ней, в конечном итоге приведя к созданию YOLO11.
Link to this sectionОбзор Mask R-CNN#
Mask R-CNN, что расшифровывается как Mask Region-based Convolutional Neural Network, — это модель глубокого обучения, разработанная для computer vision tasks, таких как обнаружение объектов и сегментация экземпляров (instance segmentation).
Сегментация экземпляров выходит за рамки традиционного обнаружения объектов: она не только идентифицирует объекты на изображении, но и точно очерчивает каждый из них. Модель присваивает уникальную метку каждому обнаруженному объекту и фиксирует его точную форму на уровне пикселей. Такой детальный подход позволяет четко различать перекрывающиеся объекты и точно работать со сложными формами.
Mask R-CNN основана на Faster R-CNN, которая находит и подписывает объекты, но не определяет их точные формы. Mask R-CNN улучшает этот процесс, выявляя конкретные пиксели, составляющие каждый объект, что позволяет проводить гораздо более детальный и точный анализ изображений.

Рис. 1. Сравнение обнаружения объектов и сегментации экземпляров.
Link to this sectionВзгляд на архитектуру Mask R-CNN и принципы ее работы#
Mask R-CNN использует пошаговый подход для точного обнаружения и сегментации объектов. Сначала она извлекает ключевые признаки с помощью глубокой нейронной сети (многослойной модели, обучающейся на данных), затем определяет потенциальные области объектов с помощью сети формирования предложений регионов (Region Proposal Network — компонент, предлагающий вероятные области объектов) и, наконец, уточняет эти области, создавая подробные маски сегментации (точные контуры объектов), которые фиксируют точную форму каждого из них.
Далее мы подробно разберем каждый шаг, чтобы лучше понять, как работает Mask R-CNN.

Рис. 2. Обзор архитектуры Mask R-CNN (Источник: researchgate.net).
Link to this sectionНачиная с извлечения признаков#
Первый шаг в архитектуре Mask R-CNN — разбиение изображения на ключевые компоненты, чтобы модель могла понять, что на нем изображено. Представь, что ты смотришь на фото и естественным образом замечаешь детали: формы, цвета и края. Модель делает нечто подобное, используя глубокую нейронную сеть, называемую «основой» или «бэкбоном» (часто ResNet-50 или ResNet-101), которая работает как ее глаза, сканируя изображение и выделяя важные детали.
Поскольку объекты на изображениях могут быть как очень маленькими, так и очень большими, Mask R-CNN использует Feature Pyramid Network (пирамидальную сеть признаков). Это похоже на использование разных увеличительных стекол, которые позволяют модели видеть как мелкие детали, так и общую картину, гарантируя, что объекты всех размеров будут замечены.
Как только эти важные features are extracted, модель переходит к локализации потенциальных объектов на изображении, подготавливая почву для дальнейшего анализа.
Link to this sectionПредложение потенциальных областей с объектами на изображении#
После того как изображение было обработано для извлечения ключевых признаков, в дело вступает Region Proposal Network. Эта часть модели изучает изображение и предлагает области, в которых вероятнее всего находятся объекты.
Она делает это путем создания множества возможных местоположений объектов, называемых anchors. Затем сеть оценивает эти якоря и выбирает наиболее перспективные для дальнейшего анализа. Таким образом, модель фокусируется только на областях, которые с наибольшей вероятностью представляют интерес, вместо того чтобы проверять каждый отдельный участок изображения.

Рис. 3. Пример работы Region Proposal Network.
Link to this sectionУлучшение извлеченных признаков#
Когда ключевые области определены, следующий шаг — уточнение деталей, извлеченных из этих регионов. В более ранних моделях использовался метод ROI Pooling (объединение областей интереса) для захвата признаков из каждой области, но эта техника иногда приводила к небольшим смещениям при изменении размера регионов, что делало ее менее эффективной, особенно для маленьких или перекрывающихся объектов.
Mask R-CNN улучшает этот процесс с помощью техники, называемой ROI Align (выравнивание областей интереса). Вместо округления координат, как в ROI Pooling, ROI Align использует билинейную интерполяцию для более точной оценки значений пикселей. Билинейная интерполяция — это метод, который вычисляет новое значение пикселя путем усреднения значений его четырех ближайших соседей, что создает более плавные переходы. Это позволяет признакам оставаться правильно выровненными относительно исходного изображения, что приводит к более точному обнаружению и сегментации объектов.
Например, в футбольном матче двух игроков, стоящих близко друг к другу, можно ошибочно принять за одного из-за перекрытия их ограничивающих рамок. ROI Align помогает разделить их, сохраняя границы их форм четкими.

Рис. 4. Использование ROI Align в Mask R-CNN.
Link to this sectionКлассификация объектов и предсказание их масок#
После того как ROI Align обработает изображение, следующий шаг — классификация объектов и точная настройка их расположения. Модель анализирует каждый извлеченный регион и решает, какой именно объект в нем находится. Она присваивает балл вероятности различным категориям и выбирает лучшее совпадение.
Одновременно с этим она корректирует ограничивающие рамки, чтобы они лучше соответствовали объектам. Первоначальные рамки могут быть расположены неидеально, поэтому этот шаг помогает повысить точность, гарантируя, что каждая рамка плотно охватывает обнаруженный объект.
Наконец, Mask R-CNN делает дополнительный шаг: параллельно генерирует детальную segmentation mask для каждого объекта.
Link to this sectionMask R-CNN и приложения реального времени#
Когда эта модель появилась, ее с большим энтузиазмом встретило сообщество ИИ, и вскоре она нашла применение в самых разных областях. Способность обнаруживать и сегментировать объекты в реальном времени изменила правила игры в различных индустриях.
Например, tracking endangered animals в дикой природе — сложная задача. Многие виды перемещаются по густым лесам, что затрудняет их отслеживание специалистами по охране природы. Традиционные методы используют фотоловушки, дроны и спутниковые снимки, но ручная сортировка всех этих данных отнимает много времени. Ошибки идентификации и пропуски животных могут замедлить природоохранные усилия.
Распознавая уникальные черты, такие как полоски тигра, пятна жирафа или форму ушей слона, Mask R-CNN может обнаруживать и сегментировать животных на изображениях и видео с гораздо большей точностью. Даже когда животные частично скрыты деревьями или стоят близко друг к другу, модель может отделить их и идентифицировать каждое по отдельности, делая мониторинг дикой природы быстрее и надежнее.

Рис. 5. Обнаружение и сегментация животных с помощью Mask R-CNN.
Link to this sectionОграничения Mask R-CNN#
Несмотря на свою историческую значимость в задачах обнаружения и сегментации объектов, у Mask R-CNN есть ключевые недостатки. Вот некоторые проблемы, связанные с Mask R-CNN:
- High computational demand: модель опирается на мощные GPU, что может сделать ее эксплуатацию дорогой и замедлить обработку больших объемов данных.
- Более низкая скорость обработки: многоэтапный процесс делает ее медленнее по сравнению с быстрыми моделями реального времени, такими как YOLO, что может быть не лучшим решением для задач, чувствительных ко времени.
- Зависимость от качества данных: модель лучше всего работает с четкими, хорошо размеченными изображениями. Размытые или плохо освещенные изображения могут значительно снизить ее точность.
- Сложность реализации: многоэтапная архитектура может быть трудна в настройке и оптимизации, особенно при работе с большими наборами данных или ограниченными ресурсами.
Link to this sectionОт Mask R-CNN к Ultralytics YOLO11#
Mask R-CNN отлично подходила для задач сегментации, но многие отрасли стремились внедрять computer vision, отдавая приоритет скорости и работе в реальном времени. Это требование подтолкнуло исследователей к разработке одноэтапных моделей, которые обнаруживают объекты за один проход, значительно повышая эффективность.
В отличие от многошагового процесса Mask R-CNN, одноэтапные computer vision models, такие как YOLO (You Only Look Once), ориентированы на задачи реального времени. Вместо того чтобы обрабатывать обнаружение и сегментацию отдельно, модели YOLO могут анализировать изображение за один раз. Это делает их идеальными для приложений, таких как автономное вождение, здравоохранение, производство и робототехника, где быстрота принятия решений имеет решающее значение.
В частности, YOLO11 делает следующий шаг, будучи одновременно быстрой и точной. Она использует на 22% меньше параметров, чем YOLOv8m, но при этом достигает более высокой средней точности (mAP) на наборе данных COCO, что означает более точное обнаружение объектов. Улучшенная скорость обработки делает ее хорошим выбором для приложений реального времени, где важна каждая миллисекунда.

Рис. 6. Производительность YOLO11 в сравнении с другими моделями.
Link to this sectionОсновные выводы#
Оглядываясь на историю computer vision, Mask R-CNN признается как прорыв в обнаружении и сегментации объектов. Она выдает очень точные результаты даже в сложных условиях благодаря тщательно проработанному многоэтапному процессу.
Тем не менее, этот же процесс делает ее медленнее по сравнению с моделями реального времени, такими как YOLO. Поскольку потребность в скорости и эффективности растет, во многих приложениях сейчас используются одноэтапные модели, такие как Ultralytics YOLO11, которые предлагают быстрое и точное обнаружение объектов. Хотя Mask R-CNN важна для понимания эволюции computer vision, тенденция к решениям реального времени подчеркивает растущий спрос на более быстрые и эффективные технологии компьютерного зрения.
Присоединяйся к нашему растущему community! Изучи наш GitHub repository, чтобы узнать больше об AI. Готов начать свои проекты по компьютерному зрению? Ознакомься с нашими licensing options. Узнай об AI in agriculture и vision AI in healthcare, посетив наши страницы решений!






