점과 상자로 AI 모델을 안내하는 시각적 프롬프팅을 탐색하세요.YOLO SAM 어떻게 정밀한 분할과 더 빠른 데이터 주석을 SAM 알아보세요.
시각적 프롬프팅은 컴퓨터 비전 분야의 신흥 기술로, 사용자가 점, 경계 상자, 낙서 등의 공간적 또는 시각적 단서를 제공하여 AI 모델의 주의를 이미지 내 특정 객체나 영역으로 유도하는 방식입니다. 주로 텍스트 설명에 의존하는 기존 프롬프트 엔지니어링과 달리, 시각적 프롬프팅은 인공지능(AI) 시스템과의 보다 정밀하고 직관적인 상호작용을 가능하게 합니다. 이 방법은 현대적 기초 모델의 역량을 활용하여 광범위한 재훈련이나 대규모 라벨링 데이터셋 없이도 분할 및 탐지 같은 작업을 수행합니다. 사용자가 중요한 부분을 효과적으로 "가리킴"으로써 범용 모델을 새로운 작업에 즉시 적용할 수 있어 인간 의도와 기계 인식 간의 격차를 해소합니다.
시각적 프롬프팅의 핵심은 공간 정보를 모델의 처리 파이프라인에 직접 주입하는 방식입니다. 사용자가 객체를 클릭하거나 상자를 그리면, 이러한 입력은 좌표 기반 임베딩으로 변환되어 신경망이 이미지 특징과 통합합니다. 이 과정은 Segment Anything Model(SAM)과 같은 상호작용형 아키텍처의 핵심으로, 모델이 기하학적 프롬프트를 기반으로 마스크를 예측합니다.
시각적 프롬프트의 유연성은 다양한 상호작용 유형을 가능하게 합니다:
CVPR 2024에서 발표된 최근 연구는 시각적 프롬프팅이 데이터 주석 작업에 소요되는 시간을 크게 단축시킨다는 점을 강조합니다. 이는 인간 주석자가 수동으로 다각형을 추적하는 대신 간단한 클릭만으로 모델 예측을 실시간으로 수정할 수 있기 때문입니다.
두 기술 모두 모델의 행동을 유도하는 것을 목표로 하지만, 시각적 프롬프팅과 텍스트 기반 방법을 구분하는 것이 중요하다. 텍스트-이미지 생성 또는 제로샷 탐지는 의미적 설명(예: "빨간 차를 찾아라")을 해석하기 위해 자연어 처리(NLP)에 의존한다. 그러나 언어는 모호하거나 정확한 공간적 위치나 추상적인 형태를 설명하기에 불충분할 수 있다.
시각적 프롬프팅은 지시를 픽셀 공간 자체에 기반함으로써 이러한 모호성을 해결합니다. 예를 들어, 의료 영상 분석에서 의사가 의심스러운 결절을 클릭하는 것이 정확한 좌표와 불규칙한 형태를 텍스트로 설명하려는 시도보다 훨씬 정확합니다. 가장 강력한 워크플로는 종종 두 접근법을 결합합니다— 의미적 필터링에는 텍스트를, 공간적 정밀도에는 시각적 프롬프트를 사용하는 방식— 이를 다중 모달 학습이라고 합니다.
시각적 프롬프트의 적응성은 다양한 산업 분야에서 그 신속한 채택으로 이어졌습니다:
Ultralytics 특히 FastSAM SAM 같은 모델을 통해 시각적 프롬프팅 워크플로를 지원합니다. 이러한 모델을 통해 개발자는 프로그래밍 방식으로 점 또는 박스 좌표를 전달하여 분할 마스크를 검색할 수 있습니다.
다음 예는 ultralytics 이미지에 점 프롬프트를 적용하여
모델이 특정 좌표에 위치한 segment 지시하는 패키지.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
시각적 프롬프팅은 컴퓨터 비전이 "프롬프트 가능"한 방향으로 전환되는 것을 의미합니다. 이는 모델이 더 이상 정적인 "블랙박스"가 아닌 상호작용 도구로 변모함을 뜻합니다. 이러한 기능은 능동적 학습 루프에 필수적이며, 모델이 사용자 피드백을 통합함으로써 신속하게 개선되는 과정을 가능하게 합니다.
이러한 기능을 생산 환경에 통합하려는 개발자를 위해 Ultralytics 동적 입력을 처리할 수 있는 모델을 배포하고 데이터셋을 관리하는 도구를 제공합니다. 연구가 진전됨에 따라 시각적 프롬프트와 대규모 언어 모델(LLM) 간의 통합이 더욱 강화되어, 현재 텍스트를 처리하는 것과 동일한 유창성으로 시각적 입력에 대해 추론할 수 있는 시스템이 구현될 것으로 기대됩니다.