인스턴스 세그멘테이션이란 무엇인가요? 빠른 가이드
인스턴스 세그멘테이션이 무엇인지, 어떻게 작동하는지, 다양한 컴퓨터 비전 애플리케이션에서 어떻게 사용되는지, 그리고 이것이 가져올 영향에 대해 자세히 알아봅니다.

컴퓨터 비전 애플리케이션은 도로 상황을 감시하는 교통 카메라부터 매장의 무인 계산 시스템에 이르기까지 우리 일상에서 점점 더 보편화되고 있습니다. 기계가 인간과 유사한 방식으로 시각 데이터를 이해할 수 있게 함으로써, 비전 AI는 다양한 산업 분야에 영향을 미치고 있습니다.
이러한 애플리케이션 중 다수는 컴퓨터 비전 작업의 일종인 객체 탐지(object detection)에 의존하며, 이는 이미지 속 주요 객체 주위에 경계 상자(bounding box)를 배치합니다. 이 접근 방식은 종종 효과적이지만, 일부 이미지 분석 솔루션은 훨씬 더 높은 정밀도를 요구합니다.
예를 들어, 의료 영상 분야에서는 종양을 탐지하는 것 이상의 작업이 필요합니다. 즉, 종양의 정확한 모양을 윤곽선으로 그리는 것이 매우 중요합니다. 마찬가지로 로봇 공학에서는 기계가 물체를 정확하게 잡기 위해 물체의 정확한 윤곽을 인식해야 합니다. 이러한 과제를 해결하기 위해 인스턴스 세그멘테이션은 더욱 정밀한 솔루션을 제공합니다.
인스턴스 세그멘테이션은 단순히 객체를 탐지하는 것만으로는 부족한 사용 사례를 지원하도록 설계된 컴퓨터 비전 작업으로, 픽셀 수준의 정확도를 제공합니다. Ultralytics YOLO11과 같은 컴퓨터 비전 모델을 사용하면 이미지와 영상에 인스턴스 세그멘테이션을 쉽게 적용할 수 있습니다.

그림 1. YOLO11을 인스턴스 세그멘테이션에 사용하는 예시입니다.
본 가이드에서는 인스턴스 세그멘테이션의 작동 원리와 그 애플리케이션, 그리고 Ultralytics YOLO11을 특정 세그멘테이션 작업을 위해 어떻게 커스텀 학습시킬 수 있는지 자세히 알아봅니다.
Link to this section인스턴스 세그멘테이션이란 무엇인가요?#
사람들이 촘촘하게 서 있는 단체 사진이 있다고 가정해 봅시다. 객체 탐지 기술은 각 사람 주위에 상자를 그릴 수는 있지만, 그들의 정확한 모양까지 알려주지는 않습니다.
반면에 인스턴스 세그멘테이션은 마치 각 사람의 전체 외곽선을 꼼꼼하게 따라 그리는 것과 비슷하여, 서로 겹쳐 있더라도 전체 윤곽을 확인할 수 있습니다. 단순히 상자로 물체의 위치를 표시하는 대신, 픽셀 단위로 각 객체의 정확한 모양을 식별하므로 복잡한 이미지를 훨씬 쉽게 이해할 수 있습니다.
그 결과는 객체의 모양을 채우고 어떤 픽셀이 해당 객체에 속하는지 정확히 짚어내는 상세한 마스크(mask)가 됩니다. 이러한 수준의 정밀도는 객체의 정확한 모양과 경계를 이해하는 것이 중요한 많은 실제 애플리케이션에서 유용합니다.

그림 2. YOLO11의 인스턴스 세그멘테이션 지원 기능 설명.
Link to this section인스턴스 세그멘테이션과 시맨틱 세그멘테이션의 비교#
인스턴스 세그멘테이션을 탐색하다 보면 시맨틱 세그멘테이션이라는 개념을 접하게 될 수 있습니다.
두 기술 모두 컴퓨터가 픽셀 수준에서 이미지를 이해하도록 돕지만, 목적은 서로 다릅니다. 시맨틱 세그멘테이션은 모든 픽셀을 범주(category)에 따라 라벨링하며, 동일한 유형의 모든 객체를 하나로 그룹화합니다. 예를 들어, 여러 대의 자동차가 있는 이미지에서 시맨틱 세그멘테이션은 개별 차량을 구분하지 않고 모두 "자동차"로 표시합니다.
반면에 인스턴스 세그멘테이션은 각 객체를 별도로 식별하여 한 단계 더 나아갑니다. 개별 인스턴스에 고유한 라벨을 할당하고 객체 모양 주위에 정밀한 마스크를 생성합니다. 따라서 같은 이미지에서 인스턴스 세그멘테이션은 모든 것을 단순히 "자동차"라고 라벨링하는 것이 아니라, 각 자동차를 개별적으로 인식하고 윤곽을 표시합니다.
두 작업의 주요 차이점은 시맨틱 세그멘테이션은 객체를 범주별로 그룹화하는 반면, 인스턴스 세그멘테이션은 각 객체를 명확한 경계를 가진 고유한 개체로 구별한다는 것입니다. 어떤 작업을 사용할지는 애플리케이션의 구체적인 목적에 따라 결정됩니다. 단순히 이미지에 무엇이 있는지 아는 것으로 충분한지, 아니면 개별 객체를 구별하는 것이 중요한지에 달려 있습니다.

그림 3. 인스턴스 세그멘테이션과 시맨틱 세그멘테이션 비교(각각 오른쪽과 왼쪽).
Link to this section인기 있는 인스턴스 세그멘테이션 모델#
오늘날 비전 AI 커뮤니티에는 다양한 인스턴스 세그멘테이션 모델이 존재합니다. 어떤 모델은 속도가 빠르고, 어떤 모델은 더 정확하며, 또 다른 모델은 사용하기가 더 쉽습니다.
이러한 옵션들은 유용하지만, 특정 작업에 어떤 모델을 사용해야 하는지에 대한 의문을 낳기도 합니다. 그중에서도 Ultralytics YOLO 모델은 속도와 정확성에 중점을 두기 때문에 매우 인기가 높습니다.
또한 이러한 모델들은 수년에 걸쳐 크게 발전해 왔습니다. 예를 들어, Ultralytics YOLOv5는 PyTorch와 같은 프레임워크를 사용하여 배포를 간소화했으며, 깊은 기술적 전문 지식 없이도 더 많은 사람들이 고급 비전 AI를 활용할 수 있게 했습니다.
그 성공을 바탕으로, Ultralytics YOLOv8은 인스턴스 세그멘테이션, 포즈 추정(pose estimation), 이미지 분류와 같은 컴퓨터 비전 작업에 대한 강화된 지원을 도입했습니다.
이제 YOLO11은 성능을 새로운 차원으로 끌어올렸습니다. YOLOv8m보다 파라미터 수가 22% 적으면서도 COCO 데이터셋에서 더 높은 mAP(mean average precision)를 달성하여, 더 적은 리소스로도 객체를 더 정확하게 인식할 수 있게 되었습니다.

그림 4. YOLO11 벤치마킹.
간단히 말해, YOLO11은 효율성을 희생하지 않으면서도 최첨단 정확도를 제공하므로 해당 분야의 판도를 바꾸고 있습니다.
Link to this section인스턴스 세그멘테이션의 작동 원리 이해하기#
다음으로, 인스턴스 세그멘테이션이 일반적으로 어떻게 작동하는지 살펴보겠습니다. 구형 컴퓨터 비전 모델은 2단계 접근 방식을 사용합니다.
먼저, 객체 주위에 경계 상자를 그려 객체를 탐지합니다. 그런 다음, 각 객체의 정확한 모양을 따라 픽셀 수준의 마스크를 생성합니다. 잘 알려진 예로 Mask R-CNN이 있는데, 이는 객체 탐지 모델에 마스크 예측 단계를 추가하여 구축된 모델입니다. 이 방법은 효과적이지만, 여러 단계로 이미지를 처리하기 때문에 속도가 느릴 수 있어 실시간 애플리케이션 구현이 어렵다는 과제가 있습니다.
반면 YOLO11과 같은 모델은 이미지를 한 번에 처리하여 객체 경계 상자와 인스턴스 세그멘테이션 마스크를 동시에 예측합니다. 이러한 간소화된 접근 방식은 훨씬 빠른 속도를 보장하면서도 높은 정확도를 유지합니다. 그 결과 자율 주행, 영상 분석, 로봇 공학과 같이 속도와 정밀도가 모두 중요한 실시간 애플리케이션에 특히 유용합니다.
Link to this section인스턴스 세그멘테이션을 위한 YOLO11 커스텀 학습#
YOLO11은 기본적으로 사전 학습된 모델로 제공됩니다. 인스턴스 세그멘테이션을 위해 일상적인 객체를 포함하는 COCO-Seg 데이터셋으로 학습되었습니다. 하지만 Ultralytics Python 패키지는 고유한 객체를 세그멘테이션해야 하는 특수 애플리케이션을 위해 커스텀 학습을 지원합니다.
모델을 커스텀 학습하거나 파인튜닝하는 것이 왜 중요할까요? 커스텀 학습은 사전 학습된 모델에 이미 내재된 지식을 활용하여 전이 학습(transfer learning)을 수행합니다. 처음부터 새로 시작하는 대신, 더 작은 데이터셋과 더 적은 컴퓨팅 리소스를 사용하여 기존 모델을 새로운 작업에 적응시키면서도 높은 정확도를 유지할 수 있습니다.
Link to this sectionYOLO11을 커스텀 학습하는 방법#
인스턴스 세그멘테이션을 위해 YOLO11을 파인튜닝하는 단계를 자세히 살펴보겠습니다:
- 데이터 준비: 특정 애플리케이션에 맞춰 이미지를 수집하고 어노테이션을 작성합니다. Ultralytics는 다양한 이미지 데이터셋을 지원하지만, 필요한 YOLO 형식에 맞춰 이미지와 어노테이션을 준비하여 자체 데이터셋으로도 학습할 수 있습니다.
- 사전 학습된 모델 사용: 처음부터 새로 시작하는 대신, 사전 학습된 Ultralytics YOLO11 모델을 사용합니다.
- 모델 학습: 배치 사이즈(반복당 처리되는 이미지 수), 이미지 사이즈(목표 입력 해상도), 에포크(전체 학습 주기)와 같은 주요 학습 설정을 조정하고 모델을 학습시킵니다.
- 성능 평가: 모델 학습이 완료되면 mAP와 같은 성능 지표를 사용하여 모델의 정확도를 테스트할 수 있습니다. Ultralytics Python 패키지는 모델 평가를 위한 내장 함수도 제공합니다.
Link to this sectionYOLO11으로 구현하는 인스턴스 세그멘테이션 애플리케이션#
인스턴스 세그멘테이션은 기계가 객체를 더 정확하게 보고 이해하도록 도와 실제 과제를 해결하는 데 사용될 수 있습니다. 자동화 개선부터 환경 보호에 이르기까지, 다양한 분야에서 핵심적인 역할을 합니다. 인스턴스 세그멘테이션이 어떤 영향을 미치고 있는지 사례를 통해 알아보겠습니다.
Link to this sectionYOLO11을 활용한 건설 현장 안전 및 모니터링#
인스턴스 세그멘테이션은 건설 현장에서 안전과 효율성을 보장하는 중요한 역할을 할 수 있습니다. 예를 들어, 중장비를 모니터링하는 데 활용될 수 있습니다.
YOLO11은 크레인, 굴착기, 불도저와 같은 다양한 장비를 정확하게 세그멘테이션하고 식별하며, 실시간으로 위치를 추적하도록 파인튜닝될 수 있습니다. 이를 통해 현장 관리자는 장비가 지정된 영역 내에서만 작동하도록 보장하고, 작업자가 있거나 위험 요소가 존재하는 구역을 침범하지 않도록 할 수 있습니다.
또한 이러한 솔루션을 실시간 경고 시스템과 통합하면 즉각적인 시정 조치를 취할 수 있습니다. 나아가 수집된 통찰력은 현장 배치와 워크플로우를 최적화하여 위험을 추가로 줄이고 생산성을 높이는 데 도움을 줍니다.

그림 5. YOLO11을 활용한 중장비 모니터링.
Link to this section세그멘테이션과 YOLO11을 이용한 동물 모니터링#
동물 행동 모니터링은 연구원, 농부 및 환경 보호론자들이 다양한 환경에서 동물을 더 잘 돌볼 수 있도록 돕습니다. 인스턴스 세그멘테이션은 농장, 동물원 및 자연 서식지에서 개별 동물을 식별하고 세그멘테이션함으로써 이러한 시스템에서 유용한 역할을 합니다. 경계 상자를 사용하는 기존의 객체 탐지와 달리, 인스턴스 세그멘테이션은 각 동물의 픽셀 수준 윤곽선을 제공하므로 동물이 밀집해 있을 때 특히 유용합니다.
상세한 세그멘테이션은 움직임과 행동을 더 정확하게 추적할 수 있게 합니다. 서로 겹치거나 밀접하게 모여 있는 동물들을 명확하게 인식할 수 있어, 상호 작용, 건강 상태 평가 및 활동 패턴에 대한 더 정확한 분석을 제공합니다. 전반적으로 동물 행동에 대한 깊은 통찰력은 동물 관리 및 보호 관행을 개선합니다.

그림 6. 인스턴스 세그멘테이션을 활용한 가축 모니터링.
Link to this section스포츠 분석 및 선수 추적에서의 YOLO11#
정밀한 선수 및 이벤트 추적은 스포츠 분석의 큰 부분을 차지합니다. 기존 추적 방식은 수동 태깅에 의존하므로 상세한 상호 작용을 포착하지 못할 수 있습니다. 컴퓨터 비전을 사용하면 선수, 공, 주요 이벤트와 같은 세부 사항을 픽셀 수준에서 세그멘테이션하여 상세한 통찰력을 얻을 수 있습니다.
예를 들어, 인스턴스 세그멘테이션은 각 선수와 객체를 명확하게 분리하여 파울이나 볼 오프 이벤트와 같은 상황을 탐지하는 데 도움을 줄 수 있습니다. YOLO11과 같은 모델이 제공하는 이러한 세밀한 모니터링은 분석가들에게 이동 패턴, 공간적 위치 지정 및 상호 작용을 높은 정확도로 연구할 수 있는 더 명확한 정보를 제공합니다. 이러한 통찰력의 주요 이점은 팀이 전략을 개선하고 전반적인 성과를 높이는 데 도움을 준다는 것입니다.
Link to this section인스턴스 세그멘테이션의 장단점#
인스턴스 세그멘테이션이 다양한 산업에 가져다주는 주요 이점은 다음과 같습니다:
- 자동화 개선: 품질 관리 및 안전 모니터링과 같은 작업을 자동화함으로써 인스턴스 세그멘테이션은 수동 개입의 필요성을 줄이고 인적 오류를 최소화합니다.
- 더 나은 장면 이해: 각 객체의 윤곽을 정확하게 그림으로써 인스턴스 세그멘테이션은 복잡한 장면에 대한 더 깊은 이해에 기여하여 정보에 기반한 의사 결정을 지원합니다.
- 효율적인 후처리: 픽셀 수준의 출력은 배경 제거, 객체 계수, 공간 분석과 같은 작업을 간소화하여 추가 처리 단계의 필요성을 줄여줍니다.
이러한 이점들은 인스턴스 세그멘테이션이 다양한 사용 사례에 어떻게 영향을 미치는지 보여주지만, 구현 시 관련된 과제들을 고려하는 것도 필수적입니다.
인스턴스 세그멘테이션의 주요 한계점은 다음과 같습니다:
- 투명도 관련 문제: 유리나 물과 같은 투명하거나 반사되는 객체를 세그멘테이션하는 것은 어려우며, 이로 인해 경계가 부정확해질 수 있습니다.
- 유지 보수 오버헤드: 모델의 정확성과 적합성을 유지하려면 환경 조건과 데이터셋이 변화함에 따라 지속적인 업데이트와 파인튜닝이 필요합니다.
- 높은 어노테이션 노력: 인스턴스 세그멘테이션 모델을 학습하려면 상세한 픽셀 수준의 어노테이션이 필요하며, 이는 데이터 준비에 소요되는 시간과 비용을 크게 증가시킵니다.
Link to this section핵심 요약#
인스턴스 세그멘테이션은 객체가 겹칠 때도 정밀하게 개별 객체를 구별할 수 있게 해줍니다. 픽셀 수준에서 객체 경계를 포착함으로써 객체 탐지와 같은 기존 컴퓨터 비전 작업보다 시각 데이터에 대한 더 깊은 이해를 제공합니다.
최근 컴퓨터 비전의 발전으로 인스턴스 세그멘테이션은 더 빠르고 사용하기 쉬워졌습니다. 특히 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 프로세스를 간소화하여 최소한의 설정으로 실시간 세그멘테이션을 가능하게 함으로써 다양한 산업과 애플리케이션에서 더 쉽게 접근할 수 있게 되었습니다.
AI에 대해 더 알고 싶으신가요? GitHub 저장소를 방문하고 커뮤니티와 소통하며 계속해서 탐색해 보세요. 자율 주행 자동차의 AI 및 농업 분야의 비전 AI와 같은 혁신 사례를 솔루션 페이지에서 알아보세요. 라이선스 옵션을 확인하고 컴퓨터 비전 프로젝트를 시작해 보세요!






