YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
비전 AI

Mask R-CNN이란 무엇이며 어떻게 작동합니까?

다양한 분야에서 이미지와 영상의 객체를 정밀하게 분할하기 위해 Mask R-CNN을 사용하는 방법을 알아보십시오.

ABAbirami Vina
4 min read
Mask R-CNN을 이용한 인스턴스 분할

창고의 로봇, 혼잡한 거리를 안전하게 주행하는 자율주행 자동차, 농작물을 점검하는 드론, 공장에서 제품을 검사하는 AI 시스템과 같은 혁신 기술들은 AI 도입이 증가함에 따라 더욱 보편화되고 있습니다. 이러한 혁신을 주도하는 핵심 기술은 기계가 시각 데이터를 이해하고 해석할 수 있도록 돕는 AI의 한 분야인 computer vision입니다.

예를 들어, 객체 탐지는 BBox를 사용하여 이미지 내의 객체를 식별하고 위치를 파악하는 컴퓨터 비전 작업입니다. BBox는 유용한 정보를 제공하지만, 객체의 위치에 대한 대략적인 추정치만을 제공하며 객체의 정확한 형태나 경계를 포착할 수는 없습니다. 이로 인해 정밀한 식별이 필요한 애플리케이션에서는 효율성이 떨어집니다.

이 문제를 해결하기 위해 연구자들은 객체의 정확한 윤곽을 포착하여 픽셀 수준의 세부 정보를 제공함으로써 더 정확한 탐지와 분석을 가능하게 하는 세그멘테이션 모델을 개발했습니다.

Mask R-CNN은 이러한 모델 중 하나입니다. 2017년 Facebook AI Research (FAIR)에서 발표한 이 모델은 R-CNN, Fast R-CNN, Faster R-CNN과 같은 초기 모델을 기반으로 합니다. 컴퓨터 비전 역사에서 중요한 이정표인 Mask R-CNN은 Ultralytics YOLO11과 같은 더 발전된 모델을 위한 길을 열었습니다.

이 글에서는 Mask R-CNN이 무엇인지, 어떻게 작동하는지, 어떤 응용 분야가 있는지, 그리고 YOLO11로 이어진 후속 개선 사항들에 대해 살펴보겠습니다.

Link to this sectionMask R-CNN 개요#

Mask R-CNN은 Mask Region-based Convolutional Neural Network의 약자로, 객체 탐지 및 인스턴스 세그멘테이션과 같은 computer vision tasks를 위해 설계된 딥러닝 모델입니다.

인스턴스 세그멘테이션은 이미지 내 객체를 식별할 뿐만 아니라 각각의 객체를 정확하게 윤곽선으로 구분함으로써 기존의 객체 탐지를 뛰어넘습니다. 이는 탐지된 모든 객체에 고유한 레이블을 할당하고 픽셀 수준에서 정확한 형태를 포착합니다. 이러한 세부적인 접근 방식 덕분에 겹쳐 있는 객체를 명확하게 구분하고 복잡한 형태를 정확하게 처리할 수 있습니다.

Mask R-CNN은 객체를 탐지하고 레이블을 지정하지만 정확한 형태는 정의하지 않는 Faster R-CNN을 기반으로 합니다. Mask R-CNN은 각 객체를 구성하는 정확한 픽셀을 식별함으로써 이를 개선하여 훨씬 더 상세하고 정확한 이미지 분석을 가능하게 합니다.

객체 탐지와 인스턴스 분할 비교

Fig 1. 객체 탐지와 인스턴스 세그멘테이션 비교.

Link to this sectionMask R-CNN의 아키텍처 및 작동 원리 살펴보기#

Mask R-CNN은 객체를 정확하게 탐지하고 세그멘테이션하기 위해 단계별 접근 방식을 취합니다. 먼저 딥 신경망(데이터로부터 학습하는 다층 모델)을 사용하여 주요 특징을 추출하고, 영역 제안 네트워크(객체가 있을 법한 영역을 제안하는 구성 요소)로 잠재적인 객체 영역을 식별한 다음, 최종적으로 각 객체의 정확한 형태를 포착하는 세부적인 세그멘테이션 마스크(객체의 정밀한 윤곽)를 생성하여 이러한 영역을 정교화합니다.

다음으로, Mask R-CNN의 작동 방식을 더 잘 이해하기 위해 각 단계를 살펴보겠습니다.

Mask R-CNN 아키텍처 개요

Fig 2. Mask R-CNN 아키텍처 개요 (출처: researchgate.net).

Link to this section특징 추출부터 시작하기#

Mask R-CNN 아키텍처의 첫 번째 단계는 이미지를 핵심 요소로 분해하여 모델이 그 안에 무엇이 있는지 이해하도록 하는 것입니다. 마치 우리가 사진을 볼 때 자연스럽게 형태, 색상, 가장자리와 같은 세부 정보를 포착하는 것과 같습니다. 모델은 '백본'(주로 ResNet-50 또는 ResNet-101)이라 불리는 딥 신경망을 사용하여 이와 유사한 작업을 수행하며, 이 백본은 이미지의 눈 역할을 하여 이미지를 스캔하고 주요 세부 정보를 포착합니다.

이미지 내의 객체는 매우 작거나 클 수 있기 때문에, Mask R-CNN은 Feature Pyramid Network를 사용합니다. 이는 마치 모델이 미세한 세부 정보와 더 큰 전체 모습을 모두 볼 수 있게 해주는 서로 다른 배율의 돋보기를 사용하는 것과 같으며, 모든 크기의 객체가 인식되도록 합니다.

이러한 중요한 features are extracted 후, 모델은 이미지에서 잠재적인 객체를 찾기 시작하여 추가 분석을 위한 단계를 설정합니다.

Link to this section이미지에서 객체가 있을 법한 잠재적 영역 제안하기#

이미지가 주요 특징에 대해 처리된 후, 영역 제안 네트워크가 작동을 시작합니다. 모델의 이 부분은 이미지를 보고 객체가 포함되어 있을 가능성이 높은 영역을 제안합니다.

이는 anchors라고 불리는 여러 가능한 객체 위치를 생성함으로써 이루어집니다. 네트워크는 이러한 앵커를 평가하고 추가 분석을 위해 가장 유망한 것을 선택합니다. 이러한 방식으로 모델은 이미지의 모든 지점을 확인하는 대신 흥미로울 가능성이 가장 높은 영역에만 집중합니다.

Region Proposal Network 다이어그램

Fig 3. 영역 제안 네트워크의 예시.

Link to this section추출된 특징 강화하기#

핵심 영역이 식별되면 다음 단계는 이 영역에서 추출된 세부 정보를 정교화하는 것입니다. 초기 모델들은 각 영역에서 특징을 가져오기 위해 ROI Pooling(Region of Interest Pooling)이라는 방법을 사용했지만, 이 기술은 영역 크기를 조정할 때 때때로 약간의 불일치를 초래하여 특히 더 작거나 겹치는 객체에 대해 효율성이 떨어졌습니다.

Mask R-CNN은 ROI Align(Region of Interest Align)이라는 기술을 사용하여 이를 개선했습니다. ROI Pooling처럼 좌표를 반올림하는 대신, ROI Align은 양선형 보간법(bilinear interpolation)을 사용하여 픽셀 값을 더 정밀하게 추정합니다. 양선형 보간법은 네 개의 가장 가까운 이웃 픽셀 값을 평균화하여 새로운 픽셀 값을 계산하는 방법으로, 더 부드러운 전환을 생성합니다. 이를 통해 특징이 원본 이미지와 올바르게 정렬된 상태로 유지되어 더 정확한 객체 탐지 및 세그멘테이션 결과를 얻을 수 있습니다.

예를 들어, 축구 경기에서 두 선수가 가까이 서 있을 때 BBox가 겹치면 서로 혼동될 수 있습니다. ROI Align은 그들의 형태를 뚜렷하게 유지함으로써 서로 분리하는 데 도움을 줍니다.

Mask R-CNN이 ROI Align을 사용하는 방식에 대한 다이어그램

Fig 4. Mask R-CNN은 ROI Align을 사용합니다.

Link to this section객체 분류 및 마스크 예측#

ROI Align이 이미지를 처리하면, 다음 단계는 객체를 분류하고 위치를 미세 조정하는 것입니다. 모델은 각 추출된 영역을 살펴보고 그 안에 어떤 객체가 있는지 결정합니다. 서로 다른 범주에 확률 점수를 할당하고 가장 적합한 것을 선택합니다.

동시에 모델은 BBox를 조정하여 객체에 더 잘 맞게 합니다. 초기 상자가 이상적으로 배치되지 않았을 수 있으므로, 이 과정을 통해 각 상자가 탐지된 객체를 단단히 감싸도록 하여 정확도를 높입니다.

마지막으로 Mask R-CNN은 추가 단계를 거칩니다. 병렬로 각 객체에 대한 상세한 segmentation mask를 생성합니다.

Link to this sectionMask R-CNN과 실시간 응용#

이 모델이 출시되었을 때 AI 커뮤니티로부터 큰 반향을 일으켰으며 곧 다양한 애플리케이션에 사용되었습니다. 실시간으로 객체를 탐지하고 세그멘테이션하는 능력은 여러 산업 분야에서 판도를 바꾸는 계기가 되었습니다.

예를 들어, 야생에서 tracking endangered animals를 추적하는 것은 어려운 과제입니다. 많은 종이 빽빽한 숲을 통과하여 이동하기 때문에 환경 보호 활동가들이 이들을 계속 추적하기가 어렵습니다. 기존 방식은 카메라 트랩, 드론, 위성 이미지를 사용하지만, 이 모든 데이터를 수작업으로 분류하는 것은 시간이 많이 걸립니다. 오식별이나 관측 누락은 보존 노력을 늦출 수 있습니다.

호랑이 무늬, 기린 점무늬, 코끼리 귀 모양과 같은 고유한 특징을 인식함으로써 Mask R-CNN은 더 높은 정확도로 이미지와 비디오 내의 동물을 탐지하고 세그멘테이션할 수 있습니다. 동물이 나무에 부분적으로 가려져 있거나 가까이 서 있을 때도 모델은 이들을 분리하고 개별적으로 식별할 수 있어 야생 동물 모니터링을 더 빠르고 신뢰성 있게 만듭니다.

Mask R-CNN을 사용하여 동물 탐지 및 분할

Fig 5. Mask R-CNN을 사용하여 동물을 탐지하고 세그멘테이션하는 모습.

Link to this sectionMask R-CNN의 한계#

객체 탐지 및 세그멘테이션에서의 역사적 중요성에도 불구하고, Mask R-CNN은 몇 가지 주요 단점이 있습니다. Mask R-CNN과 관련된 몇 가지 과제는 다음과 같습니다:

  • High computational demand: 강력한 GPU에 의존하므로 운영 비용이 많이 들고 대량의 데이터를 처리할 때 속도가 느려질 수 있습니다.
  • 느린 처리 속도: 다단계 프로세스는 YOLO와 같은 더 빠른 실시간 모델에 비해 속도가 느려 시간 민감형 작업에는 적합하지 않을 수 있습니다.
  • 고품질 데이터 의존성: 모델은 명확하고 잘 라벨링된 이미지에서 가장 잘 작동합니다. 흐릿하거나 조명이 좋지 않은 이미지는 정확도를 크게 떨어뜨릴 수 있습니다.
  • 복잡한 구현: 다단계 아키텍처는 특히 대규모 데이터 세트나 제한된 리소스를 다룰 때 설정하고 최적화하기가 어려울 수 있습니다.

Link to this sectionMask R-CNN에서 Ultralytics YOLO11로#

Mask R-CNN은 세그멘테이션 작업에는 훌륭했지만, 많은 산업 분야에서는 속도와 실시간 성능을 우선시하면서 컴퓨터 비전을 도입하고자 했습니다. 이러한 요구 사항으로 인해 연구자들은 단 한 번의 패스로 객체를 탐지하여 효율성을 크게 높이는 1단계 모델을 개발하게 되었습니다.

Mask R-CNN의 다단계 프로세스와 달리, YOLO(You Only Look Once)와 같은 1단계 computer vision models은 실시간 컴퓨터 비전 작업에 중점을 둡니다. 탐지와 세그멘테이션을 별도로 처리하는 대신, YOLO 모델은 한 번에 이미지를 분석할 수 있습니다. 이는 빠른 의사결정이 중요한 자율주행, 의료, 제조, 로봇 공학과 같은 애플리케이션에 이상적입니다.

특히 YOLO11은 빠르고 정확하다는 점에서 한 단계 더 발전했습니다. 이 모델은 YOLOv8m보다 파라미터가 22% 적지만 COCO 데이터 세트에서 더 높은 mAP(mean average precision)를 달성하여 더 정밀하게 객체를 탐지합니다. 향상된 처리 속도 덕분에 모든 밀리초가 중요한 실시간 애플리케이션에 적합한 선택입니다.

다른 모델과 비교한 YOLO11 성능

Fig 6. 다른 모델들과 비교한 YOLO11의 성능.

Link to this section핵심 요약#

컴퓨터 비전의 역사를 되돌아볼 때, Mask R-CNN은 객체 탐지 및 세그멘테이션의 주요 돌파구로 인정받고 있습니다. 상세한 다단계 프로세스 덕분에 복잡한 환경에서도 매우 정밀한 결과를 제공합니다.

하지만 동일한 프로세스로 인해 YOLO와 같은 실시간 모델에 비해 속도가 느립니다. 속도와 효율성에 대한 필요성이 커짐에 따라, 이제 많은 애플리케이션에서 빠르고 정확한 객체 탐지를 제공하는 Ultralytics YOLO11과 같은 1단계 모델을 사용합니다. Mask R-CNN은 컴퓨터 비전의 발전을 이해하는 데 있어 중요하지만, 실시간 솔루션을 향한 트렌드는 더 빠르고 효율적인 컴퓨터 비전 솔루션에 대한 증가하는 수요를 잘 보여줍니다.

저희의 성장하는 커뮤니티에 참여하세요! AI에 대해 자세히 알아보려면 GitHub 저장소를 살펴보세요. 나만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 저희 라이선스 옵션을 확인해 보세요. 솔루션 페이지를 방문하여 농업 분야 AI의료 분야 비전 AI에 대해 알아보세요!

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.