Узнайте, как Mask R-CNN можно использовать для точной сегментации объектов на изображениях и видео для различных приложений в разных секторах.
Узнайте, как Mask R-CNN можно использовать для точной сегментации объектов на изображениях и видео для различных приложений в разных секторах.
Инновации, такие как роботы на складах, самоуправляемые автомобили, безопасно передвигающиеся по оживленным улицам, дроны, проверяющие посевы, и системы искусственного интеллекта, проверяющие продукцию на заводах, становятся все более распространенными по мере увеличения внедрения ИИ. Ключевой технологией, лежащей в основе этих инноваций, является компьютерное зрение — раздел ИИ, который позволяет машинам понимать и интерпретировать визуальные данные.
Например, обнаружение объектов — это задача компьютерного зрения, которая помогает идентифицировать и находить объекты на изображениях с помощью ограничивающих рамок. Хотя ограничивающие рамки предоставляют полезную информацию, они дают лишь приблизительную оценку положения объекта и не могут зафиксировать его точную форму или границы. Это делает их менее эффективными в приложениях, требующих точной идентификации.
Чтобы решить эту проблему, исследователи разработали модели сегментации, которые фиксируют точные контуры объектов, предоставляя детали на уровне пикселей для более точного обнаружения и анализа.
Mask R-CNN — одна из таких моделей. Представленная в 2017 году компанией Facebook AI Research (FAIR), она основана на более ранних моделях, таких как R-CNN, Fast R-CNN и Faster R-CNN. Являясь важной вехой в истории компьютерного зрения, Mask R-CNN проложила путь для более продвинутых моделей, таких как Ultralytics YOLO11.
В этой статье мы рассмотрим, что такое Mask R-CNN, как она работает, ее применение и какие улучшения произошли после нее, что привело к YOLO11.
Mask R-CNN, что расшифровывается как Mask Region-based Convolutional Neural Network (масочная региональная сверточная нейронная сеть), — это модель глубокого обучения, предназначенная для задач компьютерного зрения, таких как обнаружение объектов и сегментация экземпляров.
Сегментация экземпляров выходит за рамки традиционного обнаружения объектов, не только идентифицируя объекты на изображении, но и точно очерчивая каждый из них. Она присваивает уникальную метку каждому обнаруженному объекту и фиксирует его точную форму на уровне пикселей. Этот детальный подход позволяет четко различать перекрывающиеся объекты и точно обрабатывать сложные формы.
Mask R-CNN основана на Faster R-CNN, которая обнаруживает и маркирует объекты, но не определяет их точные формы. Mask R-CNN улучшает это, определяя точные пиксели, составляющие каждый объект, что позволяет проводить гораздо более детальный и точный анализ изображений.

Mask R-CNN использует пошаговый подход для точного обнаружения и сегментации объектов. Он начинается с извлечения ключевых признаков с использованием глубокой нейронной сети (многослойной модели, которая обучается на данных), затем определяет потенциальные области объектов с помощью сети предложений регионов (компонента, который предлагает вероятные области объектов) и, наконец, уточняет эти области, создавая подробные маски сегментации (точные контуры объектов), которые фиксируют точную форму каждого объекта.
Далее мы рассмотрим каждый шаг, чтобы лучше понять, как работает Mask R-CNN.

Первый шаг в архитектуре Mask R-CNN — разбить изображение на ключевые части, чтобы модель могла понять, что в нем находится. Представьте, что вы смотрите на фотографию и естественным образом замечаете такие детали, как формы, цвета и края. Модель делает нечто подобное, используя глубокую нейронную сеть, называемую "backbone" (часто ResNet-50 или ResNet-101), которая действует как ее глаза, сканируя изображение и улавливая ключевые детали.
Поскольку объекты на изображениях могут быть очень маленькими или очень большими, Mask R-CNN использует Feature Pyramid Network. Это похоже на наличие разных увеличительных стекол, которые позволяют модели видеть как мелкие детали, так и общую картину, гарантируя, что объекты всех размеров будут замечены.
После того как эти важные характеристики извлечены, модель переходит к определению местоположения потенциальных объектов на изображении, подготавливая почву для дальнейшего анализа.
После того как изображение было обработано для выделения ключевых признаков, в дело вступает Region Proposal Network. Эта часть модели рассматривает изображение и предлагает области, которые, вероятно, содержат объекты.
Это достигается путем генерации нескольких возможных местоположений объектов, называемых якорями. Затем сеть оценивает эти якоря и выбирает наиболее перспективные для дальнейшего анализа. Таким образом, модель фокусируется только на областях, которые с наибольшей вероятностью представляют интерес, а не проверяет каждое место на изображении.

После определения ключевых областей следующим шагом является уточнение деталей, извлеченных из этих регионов. Более ранние модели использовали метод, называемый ROI Pooling (объединение областей интереса), для захвата признаков из каждой области, но этот метод иногда приводил к небольшим смещениям при изменении размера областей, что делало его менее эффективным, особенно для небольших или перекрывающихся объектов.
Mask R-CNN улучшает это за счет использования техники, называемой ROI Align (выравнивание области интереса). Вместо округления координат, как это делает ROI Pooling, ROI Align использует билинейную интерполяцию для более точной оценки значений пикселей. Билинейная интерполяция — это метод, который вычисляет новое значение пикселя путем усреднения значений четырех ближайших соседей, что создает более плавные переходы. Это обеспечивает правильное выравнивание признаков с исходным изображением, что приводит к более точному обнаружению и сегментации объектов.
Например, в футбольном матче двух игроков, стоящих близко друг к другу, можно ошибочно принять за одного, потому что их ограничивающие рамки перекрываются. ROI Align помогает разделить их, сохраняя их формы отчетливыми.

После того как ROI Align обработает изображение, следующим шагом является классификация объектов и точная настройка их местоположения. Модель рассматривает каждый извлеченный регион и решает, какой объект он содержит. Она присваивает оценку вероятности различным категориям и выбирает наилучшее соответствие.
В то же время он корректирует ограничивающие рамки, чтобы лучше соответствовать объектам. Первоначальные рамки могут быть расположены не идеально, поэтому это помогает повысить точность, гарантируя, что каждая рамка плотно окружает обнаруженный объект.
Наконец, Mask R-CNN делает дополнительный шаг: он генерирует подробную маску сегментации для каждого объекта параллельно.
Когда эта модель вышла, она вызвала большой ажиотаж в ИИ-сообществе и вскоре стала использоваться в различных приложениях. Ее способность обнаруживать и сегментировать объекты в режиме реального времени произвела революцию в различных отраслях.
Например, отслеживание исчезающих видов животных в дикой природе является сложной задачей. Многие виды перемещаются по густым лесам, что затрудняет отслеживание их природоохранными организациями. В традиционных методах используются фотоловушки, дроны и спутниковые снимки, но ручная сортировка всех этих данных занимает много времени. Неправильная идентификация и пропущенные наблюдения могут замедлить усилия по сохранению.
Распознавая уникальные особенности, такие как тигриные полосы, пятна жирафа или форма ушей слона, Mask R-CNN может обнаруживать и сегментировать животных на изображениях и видео с большей точностью. Даже когда животные частично скрыты деревьями или стоят близко друг к другу, модель может разделять их и идентифицировать каждое по отдельности, что делает мониторинг дикой природы более быстрым и надежным.

Несмотря на свою историческую значимость в обнаружении и сегментации объектов, Mask R-CNN также имеет некоторые ключевые недостатки. Вот некоторые проблемы, связанные с Mask R-CNN:
Mask R-CNN отлично подходила для задач сегментации, но многие отрасли стремились внедрить компьютерное зрение, уделяя приоритетное внимание скорости и производительности в реальном времени. Это требование привело исследователей к разработке одноэтапных моделей, которые обнаруживают объекты за один проход, что значительно повышает эффективность.
В отличие от многоэтапного процесса Mask R-CNN, одноэтапные модели компьютерного зрения, такие как YOLO (You Only Look Once), ориентированы на задачи компьютерного зрения в реальном времени. Вместо раздельной обработки обнаружения и сегментации, модели YOLO могут анализировать изображение за один проход. Это делает их идеальными для таких приложений, как автономное вождение, здравоохранение, производство и робототехника, где быстрое принятие решений имеет решающее значение.
В частности, YOLO11 делает еще один шаг вперед, будучи одновременно быстрым и точным. Он использует на 22% меньше параметров, чем YOLOv8m, но при этом достигает более высокой средней точности (mAP) на наборе данных COCO, что означает, что он более точно обнаруживает объекты. Улучшенная скорость обработки делает его хорошим выбором для приложений реального времени, где важна каждая миллисекунда.

Оглядываясь на историю компьютерного зрения, Mask R-CNN признана крупным прорывом в обнаружении и сегментации объектов. Она обеспечивает очень точные результаты даже в сложных условиях благодаря детальному многоэтапному процессу.
Однако, этот же процесс делает его более медленным по сравнению с моделями реального времени, такими как YOLO. Поскольку потребность в скорости и эффективности растет, многие приложения теперь используют одноэтапные модели, такие как Ultralytics YOLO11, которые предлагают быстрое и точное обнаружение объектов. Хотя Mask R-CNN важна для понимания эволюции компьютерного зрения, тенденция к решениям реального времени подчеркивает растущий спрос на более быстрые и эффективные решения компьютерного зрения.
Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ. Готовы начать свои собственные проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в сельском хозяйстве и Vision AI в здравоохранении, посетив страницы наших решений!