Panoptic Segmentation
범용 세그멘테이션(Panoptic Segmentation)을 탐구하여 의미론적 세그멘테이션과 인스턴스 세그멘테이션을 통합해 보십시오. Ultralytics YOLO26이 AI 프로젝트를 위해 어떻게 정밀한 장면 이해를 제공하는지 배우십시오.
파놉틱 세그멘테이션은 컴퓨터 비전(CV)의 포괄적인 작업으로, 시맨틱 세그멘테이션과 인스턴스 세그멘테이션이라는 두 가지 서로 다른 이미지 분석 방식을 통합합니다. 기존 방식은 "하늘"이나 "잔디"와 같은 배경 영역을 범주화하거나 "자동차"나 "사람"과 같은 특정 객체를 탐지하는 식으로 이러한 작업을 별도로 다루었으나, 파놉틱 세그멘테이션은 이를 하나의 응집된 프레임워크로 결합합니다. 이 접근 방식은 이미지의 모든 픽셀에 고유한 값을 할당하여, 셀 수 있는 객체("things")와 형태가 없는 배경 영역("stuff")을 구분하는 완전한 장면 이해를 제공합니다. 모든 픽셀을 설명하고 분류함으로써 이 기술은 고립된 탐지 방식보다 인간의 시각적 인식과 더 유사하게 작동합니다.
Link to this section핵심 개념: Stuff vs. Things#
파놉틱 세그멘테이션을 완전히 이해하려면 이 기술이 처리하는 시각 정보의 이분법을 파악하는 것이 도움이 됩니다. 이 작업은 시각적 세계를 두 가지 주요 범주로 나눕니다.
- Stuff 범주: 이는 셀 수 없는 유사한 질감이나 재료의 무형 영역을 나타냅니다. 도로, 물, 잔디, 하늘, 벽 등이 그 예입니다. 파놉틱 분석에서 "도로"에 속하는 모든 픽셀은 하나의 시맨틱 영역으로 그룹화되는데, 이는 "도로 세그먼트 A"와 "도로 세그먼트 B"를 구분하는 것이 일반적으로 무의미하기 때문입니다.
- Things 범주: 이는 정의된 기하학적 구조와 경계를 가진 셀 수 있는 객체입니다. 보행자, 차량, 동물, 도구 등이 그 예입니다. 파놉틱 모델은 각 "thing"을 고유한 개체로 식별해야 하며, 나란히 서 있는 두 사람이 하나의 덩어리로 합쳐지지 않고 별도의 인스턴스(예: "사람 A"와 "사람 B")로 인식되도록 보장해야 합니다.
이러한 구분은 고급 인공지능(AI) 시스템에 매우 중요하며, 시스템이 특정 객체와 상호 작용하는 동시에 환경을 탐색할 수 있도록 합니다.
Link to this section파놉틱 아키텍처의 작동 원리#
Modern panoptic segmentation architectures typically employ a powerful deep learning (DL) backbone, such as a Convolutional Neural Network (CNN) or a Vision Transformer (ViT), to extract rich feature representations from an image. The network generally splits into two branches or "heads":
-
시맨틱 헤드: 이 브랜치는 모든 픽셀에 대한 클래스 라벨을 예측하여 장면 내 "stuff"의 밀집된 맵을 생성합니다.
-
인스턴스 헤드: 동시에 이 브랜치는 객체 탐지와 유사한 기술을 사용하여 "things"를 위치시키고 이를 위한 마스크를 생성합니다.
그 후 퓨전 모듈이나 후처리 단계가 이러한 출력 간의 충돌(예: 픽셀이 "사람" 인스턴스에 속하는지, 그 뒤의 "배경" 벽에 속하는지 결정)을 해결하여 최종적이고 겹치지 않는 파놉틱 세그멘테이션 맵을 생성합니다.
Link to this section실제 애플리케이션 사례#
파놉틱 세그멘테이션의 전체론적 특성은 안전과 맥락이 가장 중요한 산업에서 필수적입니다.
- 자율주행 차량: 자율주행 자동차는 안전한 주행을 위해 파놉틱 인식에 의존합니다. 시맨틱 구성 요소는 주행 가능 표면(도로)과 경계(인도)를 식별하고, 인스턴스 구성 요소는 보행자나 다른 차량과 같은 동적 장애물을 추적합니다. 이러한 통합된 뷰는 차량의 계획 알고리즘이 복잡한 교통 관리 시나리오에서 더 안전한 결정을 내리도록 돕습니다.
- 의료 영상 분석: 디지털 병리학에서 조직 샘플을 분석할 때는 일반적인 조직 구조(stuff)를 세그멘테이션하는 동시에 특정 세포 유형이나 종양(things)을 세고 측정해야 하는 경우가 많습니다. 이러한 상세한 분석은 의사가 정확한 질병 정량화 및 진단을 수행하는 데 도움을 줍니다.
- 로봇 공학: 가정이나 창고와 같은 비정형 환경에서 작동하는 서비스 로봇은 이동 가능한 바닥(배경)과 조작하거나 피해야 할 객체(인스턴스)를 구분해야 합니다.
Link to this sectionUltralytics를 사용한 세그멘테이션 구현#
While full panoptic training can be complex, developers can achieve high-precision instance segmentation—a critical component of the panoptic puzzle—using Ultralytics YOLO26. This state-of-the-art model offers real-time performance and is optimized for edge deployment.
다음 Python 예제는 사전 훈련된 세그멘테이션 모델을 로드하고 추론을 실행하여 별도의 객체를 분리하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()학습 데이터를 관리하고 주석 프로세스를 자동화하려는 팀을 위해 Ultralytics Platform은 데이터셋 관리 및 모델 학습을 위한 도구 모음을 제공합니다. 고품질 데이터 주석은 모델이 효과적으로 학습하기 위해 정확한 픽셀 수준 라벨이 필요하므로 세그멘테이션 작업에 매우 중요합니다.
Link to this section관련 용어 구분#
세그멘테이션 유형 간의 차이를 이해하는 것은 프로젝트에 적합한 모델을 선택하는 데 필수적입니다.
- 시맨틱 세그멘테이션: 픽셀을 범주별로 분류하는 데에만 집중합니다. "이 픽셀의 클래스는 무엇인가?"(예: 나무, 하늘)라는 질문에는 답하지만, 동일 클래스의 개별 객체를 분리할 수는 없습니다. 두 대의 자동차가 겹쳐 있으면 하나의 큰 "자동차" 덩어리로 나타납니다.
- 인스턴스 세그멘테이션: 셀 수 있는 객체를 탐지하고 마스킹하는 데에만 집중합니다. "이것은 어떤 객체인가?"라는 질문에는 답하지만 일반적으로 배경 맥락은 완전히 무시합니다.
- 파놉틱 세그멘테이션: 두 가지를 모두 결합합니다. 전체 이미지에 대해 "이 픽셀은 무엇인가?"와 "어떤 객체 인스턴스에 속하는가?"에 답하며, 분류되지 않는 픽셀이 없도록 보장합니다.
이러한 작업에 사용되는 데이터셋 형식에 대해 더 자세히 알아보려면, 세그멘테이션 성능 측정의 표준 벤치마크인 COCO 데이터셋 문서를 검토할 수 있습니다.






