욜로 비전 선전
선전
지금 참여하기

Mask R-CNN은 무엇이며 어떻게 작동하나요?

Abirami Vina

4분 소요

2025년 3월 21일

Mask R-CNN을 사용하여 다양한 분야의 애플리케이션을 위해 이미지와 비디오에서 객체를 정확하게 분할하는 방법을 알아보세요.

창고의 로봇, 번잡한 거리를 안전하게 이동하는 자율 주행 자동차, 농작물을 점검하는 드론, 공장에서 제품을 검사하는 AI 시스템과 같은 혁신은 AI 도입이 증가함에 따라 더욱 보편화되고 있습니다. 이러한 혁신을 주도하는 핵심 기술은 기계가 시각적 데이터를 이해하고 해석할 수 있도록 하는 AI의 한 분야인 컴퓨터 비전입니다.

예를 들어, 객체 감지는 경계 상자를 사용하여 이미지에서 객체를 식별하고 찾는 데 도움이 되는 컴퓨터 비전 작업입니다. 경계 상자는 유용한 정보를 제공하지만 객체의 위치에 대한 대략적인 추정치만 제공하며 정확한 모양이나 경계를 캡처할 수 없습니다. 따라서 정확한 식별이 필요한 애플리케이션에서는 효과가 떨어집니다.

이러한 문제를 해결하기 위해 연구자들은 객체의 정확한 윤곽을 포착하는 분할 모델을 개발하여 보다 정확한 감지 및 분석을 위해 픽셀 수준의 세부 정보를 제공합니다.

Mask R-CNN은 이러한 모델 중 하나입니다. 2017년 Facebook AI Research(FAIR)에서 소개되었으며 R-CNN, Fast R-CNN 및 Faster R-CNN과 같은 이전 모델을 기반으로 합니다. 컴퓨터 비전 역사의 중요한 이정표인 Mask R-CNN은 Ultralytics YOLO11과 같은 더욱 발전된 모델의 길을 열었습니다.

본 문서에서는 Mask R-CNN의 개념, 작동 방식, 응용 분야, 그리고 YOLO11로 이어지기까지의 개선 사항에 대해 살펴보겠습니다.

Mask R-CNN 개요

Mask R-CNN(Mask Region-based Convolutional Neural Network)은 객체 탐지 및 인스턴스 분할과 같은 컴퓨터 비전 작업을 위해 설계된 딥 러닝 모델입니다. 

인스턴스 분할은 이미지에서 객체를 식별할 뿐만 아니라 각 객체의 윤곽을 정확하게 표시하여 기존의 객체 감지를 뛰어넘습니다. 감지된 모든 객체에 고유한 레이블을 할당하고 픽셀 수준에서 정확한 모양을 캡처합니다. 이 상세한 접근 방식을 통해 겹치는 객체를 명확하게 구별하고 복잡한 모양을 정확하게 처리할 수 있습니다.

Mask R-CNN은 객체를 탐지하고 레이블을 지정하지만 정확한 모양을 정의하지 않는 Faster R-CNN을 기반으로 합니다. Mask R-CNN은 각 객체를 구성하는 정확한 픽셀을 식별하여 이를 개선하고 훨씬 더 자세하고 정확한 이미지 분석을 가능하게 합니다.

Fig 1. 객체 감지와 인스턴스 분할 비교.

Mask R-CNN 아키텍처 및 작동 방식 살펴보기

Mask R-CNN은 객체를 정확하게 탐지하고 분할하기 위해 단계별 접근 방식을 취합니다. 먼저 심층 신경망(데이터로부터 학습하는 다층 모델)을 사용하여 주요 특징을 추출한 다음, 영역 제안 네트워크(가능성이 높은 객체 영역을 제안하는 구성 요소)를 사용하여 잠재적인 객체 영역을 식별하고, 마지막으로 각 객체의 정확한 모양을 캡처하는 자세한 분할 마스크(객체의 정확한 윤곽선)를 만들어 이러한 영역을 개선합니다.

다음으로, Mask R-CNN이 어떻게 작동하는지 더 잘 이해하기 위해 각 단계를 살펴보겠습니다.

그림 2. Mask R-CNN의 아키텍처 개요(출처: researchgate.net).

특징 추출부터 시작

Mask R-CNN 아키텍처의 첫 번째 단계는 모델이 이미지의 내용을 이해할 수 있도록 이미지를 주요 부분으로 나누는 것입니다. 사진을 볼 때 모양, 색상 및 가장자리와 같은 세부 사항을 자연스럽게 알아차리는 것과 같습니다. 모델은 이미지의 주요 세부 사항을 스캔하고 포착하기 위해 눈 역할을 하는 "백본"(종종 ResNet-50 또는 ResNet-101)이라는 심층 신경망을 사용하여 유사한 작업을 수행합니다.

이미지의 객체는 매우 작거나 매우 클 수 있으므로 Mask R-CNN은 Feature Pyramid Network를 사용합니다. 이는 모델이 미세한 디테일과 더 큰 그림을 모두 볼 수 있도록 하여 모든 크기의 객체를 감지할 수 있도록 하는 다양한 돋보기를 갖는 것과 같습니다.

이러한 중요한 특징이 추출되면 모델은 이미지에서 잠재적인 객체를 찾아 추가 분석을 위한 준비를 합니다.

객체가 있는 이미지에서 잠재적 영역 제안

이미지의 주요 특징이 처리된 후 영역 제안 네트워크가 인계받습니다. 이 모델 부분은 이미지를 보고 객체를 포함할 가능성이 있는 영역을 제안합니다.

이것은 가능한 여러 객체 위치인 앵커(anchor)를 생성하여 수행됩니다. 그런 다음 네트워크는 이러한 앵커를 평가하고 추가 분석을 위해 가장 유망한 앵커를 선택합니다. 이러한 방식으로 모델은 이미지의 모든 단일 지점을 확인하는 대신 흥미로울 가능성이 가장 높은 영역에만 집중합니다.

Fig 3. Region Proposal Network의 예시입니다.

추출된 특징 개선 

주요 영역이 확인되면 다음 단계는 이러한 영역에서 추출된 세부 정보를 개선하는 것입니다. 초기 모델은 ROI Pooling(Region of Interest Pooling)이라는 방법을 사용하여 각 영역에서 특징을 추출했지만, 이 기술은 영역 크기를 조정할 때 약간의 정렬 불량을 초래하여 특히 작거나 겹치는 객체에 대해서는 효과가 떨어졌습니다.

Mask R-CNN은 ROI Align(관심 영역 정렬)이라는 기술을 사용하여 이를 개선합니다. ROI Pooling처럼 좌표를 반올림하는 대신 ROI Align은 양선형 보간법을 사용하여 픽셀 값을 더 정확하게 추정합니다. 양선형 보간법은 네 개의 가장 가까운 이웃의 값을 평균하여 새로운 픽셀 값을 계산하는 방법으로, 더 부드러운 전환을 만듭니다. 이를 통해 특징이 원본 이미지와 적절하게 정렬되어 보다 정확한 객체 탐지 및 분할이 가능합니다.

예를 들어 축구 경기에서 가까이 서 있는 두 선수는 바운딩 박스가 겹치기 때문에 서로 혼동될 수 있습니다. ROI Align은 모양을 뚜렷하게 유지하여 분리하는 데 도움이 됩니다. 

Fig 4. Mask R-CNN은 ROI Align을 사용합니다.

객체 분류 및 마스크 예측

ROI Align이 이미지를 처리하면 다음 단계는 객체를 분류하고 위치를 미세 조정하는 것입니다. 모델은 추출된 각 영역을 살펴보고 어떤 객체가 포함되어 있는지 결정합니다. 다양한 범주에 확률 점수를 할당하고 가장 적합한 일치 항목을 선택합니다.

동시에 경계 상자를 조정하여 객체에 더 잘 맞도록 합니다. 초기 상자가 이상적으로 배치되지 않았을 수 있으므로 각 상자가 감지된 객체를 꽉 둘러싸도록 하여 정확도를 향상시키는 데 도움이 됩니다.

마지막으로 Mask R-CNN은 한 단계 더 나아가 각 객체에 대한 자세한 세분화 마스크를 병렬로 생성합니다.

Mask R-CNN 및 실시간 애플리케이션

이 모델이 출시되었을 때 AI 커뮤니티로부터 많은 관심을 받았으며 곧 다양한 애플리케이션에서 사용되었습니다. 실시간으로 객체를 감지하고 분할하는 능력은 다양한 산업 분야에서 판도를 바꾸었습니다.

예를 들어, 야생에서 멸종 위기에 처한 동물을 추적하는 것은 어려운 작업입니다. 많은 종들이 울창한 숲을 이동하기 때문에 보존론자들이 이들을 추적하기가 어렵습니다. 기존 방법에서는 카메라 트랩, 드론 및 위성 이미지를 사용하지만, 이 모든 데이터를 수동으로 분류하는 데는 시간이 많이 걸립니다. 잘못된 식별과 놓치는 장면은 보존 노력을 늦출 수 있습니다.

호랑이 줄무늬, 기린 반점, 코끼리 귀 모양과 같은 고유한 특징을 인식하여 Mask R-CNN은 이미지와 비디오에서 동물을 더 정확하게 감지하고 분할할 수 있습니다. 동물이 나무에 부분적으로 가려져 있거나 서로 가까이 서 있을 때에도 모델은 동물을 분리하고 각각을 개별적으로 식별할 수 있어 야생 동물 모니터링이 더 빠르고 안정적으로 이루어집니다.

Fig 5. Mask R-CNN을 사용하여 동물 감지 및 분할.

Mask R-CNN의 제한 사항

객체 감지 및 분할에서 역사적 중요성에도 불구하고 Mask R-CNN에는 몇 가지 주요 단점도 있습니다. 다음은 Mask R-CNN과 관련된 몇 가지 과제입니다.

  • 높은 계산 수요: 강력한 GPU에 의존하므로 실행 비용이 많이 들고 많은 양의 데이터를 처리할 때 속도가 느릴 수 있습니다.

  • 더 느린 처리 속도: 다단계 프로세스로 인해 YOLO와 같은 더 빠른 실시간 모델에 비해 속도가 느리므로 시간에 민감한 작업에는 적합하지 않을 수 있습니다.

  • 고품질 데이터에 대한 의존성: 이 모델은 명확하고 레이블이 잘 지정된 이미지에서 가장 잘 작동합니다. 흐릿하거나 조명이 좋지 않은 이미지는 정확도를 크게 떨어뜨릴 수 있습니다.
  • 복잡한 구현: 다단계 아키텍처는 특히 대규모 데이터 세트 또는 제한된 리소스를 처리할 때 설정하고 최적화하기 어려울 수 있습니다.

Mask R-CNN부터 Ultralytics YOLO11까지

Mask R-CNN은 분할 작업에 훌륭했지만 많은 산업 분야에서 속도와 실시간 성능을 우선시하면서 컴퓨터 비전을 채택하고자 했습니다. 이러한 요구 사항으로 인해 연구자들은 단일 패스로 객체를 탐지하여 효율성을 크게 향상시키는 단일 단계 모델을 개발하게 되었습니다.

Mask R-CNN의 다단계 프로세스와 달리, YOLO(You Only Look Once)와 같은 단일 단계 컴퓨터 비전 모델은 실시간 컴퓨터 비전 작업에 중점을 둡니다. YOLO 모델은 감지 및 분할을 별도로 처리하는 대신 이미지를 한 번에 분석할 수 있습니다. 이는 빠른 의사 결정이 중요한 자율 주행, 의료, 제조 및 로봇 공학과 같은 애플리케이션에 이상적입니다.

특히 YOLO11은 빠르고 정확하다는 점에서 한 단계 더 나아갑니다. YOLOv8m보다 22% 적은 파라미터를 사용하지만 COCO 데이터 세트에서 더 높은 평균 평균 정밀도(mAP)를 달성하여 객체를 더 정확하게 감지합니다. 향상된 처리 속도는 모든 밀리초가 중요한 실시간 애플리케이션에 적합합니다.

Fig 6. 다른 모델과 비교한 YOLO11의 성능.

주요 내용

컴퓨터 비전의 역사를 되돌아보면 Mask R-CNN은 객체 감지 및 분할 분야에서 획기적인 발전으로 인정받고 있습니다. 상세한 다단계 프로세스 덕분에 복잡한 환경에서도 매우 정확한 결과를 제공합니다. 

그러나 동일한 프로세스로 인해 YOLO와 같은 실시간 모델에 비해 속도가 느립니다. 속도와 효율성에 대한 요구가 증가함에 따라 많은 애플리케이션에서 빠르고 정확한 객체 감지를 제공하는 Ultralytics YOLO11과 같은 단일 단계 모델을 사용합니다. Mask R-CNN은 컴퓨터 비전의 진화를 이해하는 데 중요하지만 실시간 솔루션으로의 추세는 더 빠르고 효율적인 컴퓨터 비전 솔루션에 대한 수요가 증가하고 있음을 강조합니다.

성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 자신만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인해 보세요. 솔루션 페이지를 방문하여 농업 분야의 AI헬스케어 분야의 Vision AI에 대해 알아보세요! 

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.