프롬프트 가능 개념 분할을 탐구하고, 기존 방법과의 차이점, 그리고 YOLOE-26과 같은 관련 모델이 어떻게 개방형 어휘 기능을 가능하게 하는지 살펴봅니다.
프롬프트 가능 개념 분할을 탐구하고, 기존 방법과의 차이점, 그리고 YOLOE-26과 같은 관련 모델이 어떻게 개방형 어휘 기능을 가능하게 하는지 살펴봅니다.
비전 AI는 급속히 발전하며 실제 환경에서 이미지와 동영상을 분석하는 데 널리 활용되고 있습니다. 예를 들어, 교통 관리 시스템부터 소매 분석에 이르기까지 다양한 애플리케이션이 컴퓨터 비전 모델과 통합되고 있습니다.
이러한 응용 분야 중 다수에서, 물체 탐지 모델과 같은 비전 모델은 차량, 사람, 장비 등 미리 정의된 물체 집합을 인식하도록 훈련됩니다. 훈련 과정에서 이러한 모델들은 각 물체의 외관과 장면 내 다른 물체와의 구별 방법을 학습할 수 있도록 다수의 라벨링된 예시를 제시받습니다.
분할 작업의 경우, 모델은 한 단계 더 나아가 이러한 객체 주변에 정확한 픽셀 단위의 윤곽선을 생성합니다. 이를 통해 시스템은 이미지 내에서 각 객체가 정확히 어디에 위치하는지 파악할 수 있습니다.
시스템이 훈련된 내용만을 인식해야 하는 경우라면 이 방법은 효과적입니다. 그러나 실제 환경에서는 그런 경우가 거의 없습니다.
시각적 장면은 일반적으로 동적입니다. 새로운 객체와 시각적 개념이 나타나고, 조건이 변화하며, 사용자는 종종 원래 훈련 설정의 일부가 아니었던 segment 합니다.
이러한 한계는 특히 분할 작업에서 두드러지게 나타납니다. 비전 AI가 지속적으로 발전함에 따라, 반복적인 재훈련 없이도 새로운 개념에 적응할 수 있는 더 유연한 분할 모델에 대한 필요성이 커지고 있습니다. 바로 이 때문에 프롬프트 기반 개념 분할(PCS)이 주목받고 있습니다.
사용자는 고정된 객체 범주 목록에 의존하는 대신, 텍스트, 시각적 프롬프트 또는 예시 이미지를 segment 하는 대상을 설명할 수 있습니다. 이러한 모델은 훈련 과정에서 명시적으로 포함되지 않았더라도, 설명된 개념과 일치하는 segment 영역을 식별하고 segment 수 있습니다.
이 글에서는 프롬프트 가능 개념 분할이 어떻게 작동하는지, 기존 접근법과 어떻게 다른지, 그리고 현재 어디에 활용되고 있는지 살펴보겠습니다.
대부분의 경우, 세분화 모델은 제한된 객체 유형 목록을 인식하도록 훈련됩니다. 이는 비전 AI 시스템이 특정 객체 segment detect segment 할 때 효과적입니다.
그러나 실제 응용 환경에서는 시각적 장면이 동적으로 변화합니다. 새로운 객체가 등장하고 작업 요구사항이 변경되며, 사용자는 종종 원래 레이블 세트에 포함되지 않은 segment 할 필요가 있습니다. 이러한 상황을 지원하려면 일반적으로 새로운 고품질 데이터와 주석을 수집하고 모델을 재훈련해야 하는데, 이는 비용을 증가시키고 배포 속도를 늦춥니다.
프롬프터블 개념 분할은 고정된 레이블 목록에서 선택하는 대신 사용자가 모델에게 무엇을 찾아야 하는지 지시할 수 있게 함으로써 이 문제를 해결합니다. 사용자가 찾고자 하는 대상이나 개념을 설명하면 모델이 이미지 내 모든 일치 영역을 강조 표시합니다. 이를 통해 사용자의 의도를 이미지의 실제 픽셀과 연결하는 것이 훨씬 쉬워집니다.

프롬프트 가능 개념 분할을 지원하는 모델은 다양한 유형의 입력을 받아들일 수 있어 유연합니다. 즉, 텍스트 설명, 시각적 힌트, 예시 이미지 등을 통해 모델이 무엇을 찾아야 하는지 알려주는 방법이 하나 이상 존재합니다.
각 접근법을 자세히 살펴보면 다음과 같습니다:
프롬프트 기반 개념 분할이 어떻게 작동하는지 살펴보기 전에, 먼저 다양한 기존 객체 분할 방법들과 비교해 보겠습니다.
PCS는 개방형 어휘 및 프롬프트 기반 모델을 가능하게 합니다. 프롬프트를 통해 설명된 새로운 아이디어와 함께 작동할 수 있지만, 기존 세분화 방식은 그렇지 못합니다. 기존 세분화 접근법에는 여러 유형이 존재하며, 각각 고유한 가정과 한계점을 지닙니다.
다음은 전통적인 세분화의 주요 유형을 간략히 살펴본 것입니다:
이러한 모든 접근법은 미리 정의된 객체 범주 목록에 의존합니다. 해당 범위 내에서는 잘 작동하지만, 범주 외의 개념은 제대로 처리하지 못합니다. 새로운 특정 객체를 분할해야 할 경우, 일반적으로 추가 훈련 데이터와 모델 미세 조정이 필요합니다.
PCS는 이를 바꾸고자 합니다. 미리 정의된 범주에 얽매이지 않고, 추론 시점에 segment 하는 대상을 직접 설명할 수 있게 합니다.
다음으로, 세분화 모델이 프롬프트 가능한 개념 세분화로 진화한 과정을 살펴보겠습니다.
분할 방식의 전환을 가져온 인기 있는 기초 모델은 SAM, 즉 세그먼트 애니띵 모델(Segment Anything Model)이었습니다. 이 모델은 2023년에 소개되었습니다. SAM 미리 정의된 객체 범주에 의존하는 대신, 사용자가 점이나 바운딩 박스와 같은 간단한 시각적 프롬프트를 통해 세그멘테이션을 안내할 수 있도록 SAM .
SAM 사용하면 사용자는 더 이상 레이블을 선택할 필요가 없었습니다. 단순히 객체가 있는 위치를 표시하기만 하면 모델이 해당 객체에 대한 마스크를 생성했습니다. 이로 인해 분할 작업이 더 유연해졌지만, 사용자는 여전히 모델이 어디를 살펴봐야 하는지 알려줘야 했습니다.
2024년 출시된 SAM 이 개념을 발전시켜 더 복잡한 장면을 처리하고 프롬프트 기반 분할을 영상으로 확장했습니다. 다양한 조명 조건, 물체 형태, 움직임에 대한 견고성을 향상시켰으며, 여전히 시각적 프롬프트에 주로 의존하여 분할을 안내합니다.
SAM 모델은 이러한 진화의 최신 단계입니다. 지난해 출시된 이 통합 모델은 시각적 이해와 언어적 지도를 결합하여 이미지 및 영상 분할 작업 전반에 걸쳐 일관된 행동을 가능하게 합니다.
SAM 사용하면 사용자는 포인터나 그리기 프롬프트에 국한되지 않습니다. 대신 원하는 segment 영역을 segment 설명하면 모델이 해당 설명과 일치하는 영역을 이미지나 동영상 프레임에서 검색합니다.
분할은 고정된 객체 범주가 아닌 개념에 의해 안내되며, 다양한 장면과 시간에 걸쳐 개방형 어휘 사용을 지원합니다. 실제로 SAM 위키데이터(Wikidata)와 같은 출처에서 파생된 온톨로지를 기반으로 하고 대규모 훈련 데이터를 통해 확장된 방대한 학습 개념 공간에서 작동합니다.

기하학적 프롬프트에 주로 의존했던 이전 버전들과 비교해 SAM 보다 유연하고 개념 중심의 분할을 향한 진전을 보여줍니다. 이는 관심 대상이 되는 객체나 개념이 변할 수 있고 항상 사전에 정의될 수 없는 실제 적용 환경에 더 적합하게 만듭니다.
그렇다면 프롬프트 가능 개념 분할은 어떻게 작동할까요? 이는 대규모 사전 훈련된 비전 및 비전 언어 모델을 기반으로 합니다. 이러한 모델들은 방대한 이미지 컬렉션과, 많은 경우에 텍스트와 쌍을 이루는 데이터로 훈련됩니다. 이러한 훈련을 통해 모델들은 일반적인 시각적 패턴과 의미적 의미를 학습하게 됩니다.
대부분의 PCS 모델은 트랜스포머 기반 아키텍처를 사용하며, 이는 전체 이미지를 한 번에 처리하여 서로 다른 영역 간의 관계를 이해합니다. 비전 트랜스포머는 이미지에서 시각적 특징을 추출하는 반면, 텍스트 인코더는 단어를 모델이 처리할 수 있는 수치적 표현으로 변환합니다.
훈련 과정에서 이러한 모델은 다양한 유형의 지도 학습을 통해 학습할 수 있습니다. 여기에는 정확한 객체 경계를 정의하는 픽셀 단위 마스크, 객체의 대략적인 위치를 나타내는 바운딩 박스, 이미지에 나타나는 내용을 설명하는 이미지 단위 레이블 등이 포함됩니다. 서로 다른 유형의 레이블링된 데이터를 활용한 훈련은 모델이 세밀한 세부 사항과 광범위한 시각적 개념을 모두 포착하는 데 도움이 됩니다.
추론 시점, 즉 모델이 실제로 예측을 수행할 때 PCS는 프롬프트 기반 프로세스를 따릅니다. 사용자는 텍스트 설명, 점이나 박스와 같은 시각적 힌트, 또는 예시 이미지를 통해 지침을 제공합니다. 모델은 프롬프트와 이미지를 공유된 내부 표현 또는 임베딩으로 인코딩하고, 설명된 개념과 일치하는 영역을 식별합니다.
마스크 디코더는 이 공유된 표현을 정밀한 픽셀 단위의 분할 마스크로 변환합니다. 모델이 시각적 특징과 의미적 의미를 연결하므로, 훈련 과정에서 명시적으로 포함되지 않은 segment 개념도 segment 수 있습니다.
또한 프롬프트를 조정하거나 추가 지침을 제공함으로써 출력을 개선할 수 있으며, 이는 모델이 복잡하거나 모호한 장면을 처리하는 데 도움이 됩니다. 이러한 반복적 과정은 배포 시 실용적인 최적화를 지원합니다.
프롬프터블 개념 분할 모델은 일반적으로 segment 보지 못한 개념을 얼마나 잘 segment 다양한 장면에서 얼마나 견고하게 수행하는지에 따라 평가됩니다. 벤치마크는 실제 배포 요구사항을 반영하여 마스크 품질, 일반화 능력, 계산 효율성에 주로 초점을 맞춥니다.
다음으로, 프롬프트 가능 개념 분할 기술이 이미 활용되고 있으며 실질적인 영향을 미치기 시작한 분야를 살펴보겠습니다.
의료 영상에는 다양한 생물학적 구조, 질병 및 스캔 유형이 포함되며, 매일 새로운 사례가 발생합니다. 기존 분할 모델들은 이러한 다양성을 따라잡는 데 어려움을 겪습니다.
PCS는 짧은 고정된 목록에서 선택하는 대신 임상의가 원하는 탐색 대상을 직접 기술할 수 있게 해주기 때문에 이 분야에 자연스럽게 부합합니다. 텍스트 문구나 시각적 프롬프트를 통해 PCS는 새로운 작업마다 모델을 재훈련하지 않고도 직접 segment 관심 영역을 segment 데 활용될 수 있습니다. 이는 다양한 임상적 요구를 처리하기 쉽게 하고, 수동 마스크 그리기의 필요성을 줄이며, 다양한 영상 유형에 걸쳐 작동합니다.
훌륭한 예로 MedSAM-3이 있는데, 이는 의료 영상에서 텍스트 프롬프트가 가능한 PCS를 위해 SAM 아키텍처를 적용한 모델입니다. 이 모델은 간이나 신장과 같은 장기 명칭, 종양이나 병변과 같은 병변 관련 개념 등 명시적인 해부학적 및 병리학적 용어로 프롬프트를 입력할 수 있습니다. 프롬프트가 주어지면 모델은 의료 영상에서 해당 영역을 직접 분할합니다.
MedSAM-3은 텍스트와 이미지를 모두 처리할 수 있는 다중 모달 대규모 언어 모델(MLLM 또는 다중 모달 LLM)도 통합합니다. 이러한 모델은 에이전트-인-더-루프(agent-in-the-loop) 환경에서 작동하며, 결과는 반복적으로 정제되어 더 까다로운 사례에서 정확도를 향상시킵니다.

MedSAM-3은 X선, MRI, CT, 초음파 및 영상 데이터 전반에 걸쳐 우수한 성능을 발휘하며, PCS가 실제 임상 환경에서 보다 유연하고 효율적인 의료 영상 워크플로우를 가능케 하는 방식을 보여줍니다.
로봇 수술은 track 및 급변하는 수술 장면 이해를 위해 시각 시스템에 의존한다. 수술 도구는 빠르게 움직이고 조명은 변하며 새로운 도구가 언제든 등장할 수 있어 사전 정의된 라벨 시스템을 유지하기 어렵다.
PCS를 통해 로봇은 track , 카메라를 안내하며, 수술 단계를 실시간으로 따라갈 수 있습니다. 이는 수동 라벨링을 줄이고 시스템을 다양한 절차에 더 쉽게 적용할 수 있게 합니다. 외과의나 자동화 시스템은 "그리퍼", "메스", "카메라 도구"와 같은 텍스트 프롬프트를 사용하여 이미지에서 분할해야 할 대상을 지시할 수 있습니다.

프롬프트 기반 개념 분할과 관련된 또 다른 흥미로운 최신 모델은 우리의 Ultralytics . 본 모델은 Ultralytics YOLO 계열에 오픈 어휘, 프롬프트 기반 분할 기능을 도입합니다.
YOLOE-26은 Ultralytics 아키텍처를 기반으로 구축되었으며, 오픈 어휘 인스턴스 분할을 지원합니다. YOLOE-26은 사용자가 여러 방식으로 분할을 유도할 수 있도록 합니다.
텍스트 프롬프트를 지원하며, 시각적 근거가 있는 짧은 문구로 대상 객체를 지정할 수 있습니다. 또한 시각적 프롬프트를 통해 이미지 단서를 기반으로 추가적인 안내를 제공합니다. 더불어 YOLOE-26은 프롬프트 없이도 객체를 탐지 및 분할하는 제로샷 추론을 위한 프롬프트 프리 모드를 포함합니다. 이 모드에서는 사용자의 프롬프트 없이도 내장된 어휘집으로부터 객체를 식별하고 분할합니다.
YOLOE-26은 물체 범주가 변경될 수 있지만 낮은 지연 시간과 안정적인 처리량이 필수적인 비디오 분석, 로봇 인식, 에지 기반 시스템과 같은 애플리케이션에 탁월합니다. 또한 주석 작업 과정의 일부를 자동화하여 워크플로를 간소화하므로 데이터 라벨링 및 데이터셋 큐레이션에 특히 유용합니다.
프롬프터블 개념 분할을 사용할 때의 주요 이점은 다음과 같습니다:
PCS에는 분명한 장점이 있지만, 고려해야 할 몇 가지 한계점은 다음과 같습니다:
프롬프트 기반 분할을 탐구하다 보면, 어떤 응용 분야에 가장 적합한지, 그리고 해결하려는 문제에 YOLO26 같은 전통적인 컴퓨터 비전 모델이 더 나은 선택인지 궁금해질 수 있습니다. 프롬프트 기반 분할은 일반적인 객체에 효과적이지만, 매우 정밀하고 일관된 결과가 필요한 사용 사례에는 적합하지 않습니다.
결함 검출이 좋은 예입니다. 제조 과정에서 결함은 종종 작고 미묘한 형태로 나타납니다. 예를 들어 작은 흠집, 움푹 들어간 자국, 정렬 불량, 표면 불규칙성 등이 있습니다. 또한 재료, 조명, 생산 조건에 따라 결함의 양상이 크게 달라질 수 있습니다.
이러한 문제들은 간단한 프롬프트로 설명하기 어려울 뿐만 아니라 범용 모델이 detect 더욱 어렵습니다. 전반적으로 프롬프트 기반 모델은 결함을 놓치거나 불안정한 결과를 생성하는 경향이 있는 반면, 결함 데이터로 특별히 훈련된 모델은 실제 검사 시스템에서 훨씬 더 신뢰할 수 있습니다.
프롬프터블 개념 분할(PCS)은 새로운 대상과 개념이 끊임없이 등장하는 현실 세계에 비전 시스템을 더 쉽게 적응시킬 수 있게 합니다. 고정된 레이블에 얽매이지 않고 사용자는 단순히 segment 하는 대상을 설명 segment 모델이 나머지를 처리하므로 시간을 절약하고 수동 작업을 줄일 수 있습니다. 아직 한계점이 있지만 PCS는 이미 실제 환경에서 분할 기술의 활용 방식을 변화시키고 있으며, 향후 비전 시스템의 핵심 구성 요소가 될 가능성이 높습니다.
GitHub 저장소를 방문하고 커뮤니티에 참여하여 AI에 대해 더 알아보세요. 로봇 공학에서의 AI와 제조업에서의 컴퓨터 비전에 대해 알아보려면 솔루션 페이지를 확인하세요. 비전 AI를 지금 바로 시작하기 위한 라이선스 옵션을 살펴보세요!