Yolo 비전 선전
선전
지금 참여하기
용어집

시각적 프롬프팅

점과 상자로 AI 모델을 안내하는 시각적 프롬프팅을 탐색하세요.YOLO SAM 어떻게 정밀한 분할과 더 빠른 데이터 주석을 SAM 알아보세요.

시각적 프롬프팅은 컴퓨터 비전 분야의 신흥 기술로, 사용자가 점, 경계 상자, 낙서 등의 공간적 또는 시각적 단서를 제공하여 AI 모델의 주의를 이미지 내 특정 객체나 영역으로 유도하는 방식입니다. 주로 텍스트 설명에 의존하는 기존 프롬프트 엔지니어링과 달리, 시각적 프롬프팅은 인공지능(AI) 시스템과의 보다 정밀하고 직관적인 상호작용을 가능하게 합니다. 이 방법은 현대적 기초 모델의 역량을 활용하여 광범위한 재훈련이나 대규모 라벨링 데이터셋 없이도 분할 및 탐지 같은 작업을 수행합니다. 사용자가 중요한 부분을 효과적으로 "가리킴"으로써 범용 모델을 새로운 작업에 즉시 적용할 수 있어 인간 의도와 기계 인식 간의 격차를 해소합니다.

시각적 프롬프팅의 메커니즘

시각적 프롬프팅의 핵심은 공간 정보를 모델의 처리 파이프라인에 직접 주입하는 방식입니다. 사용자가 객체를 클릭하거나 상자를 그리면, 이러한 입력은 좌표 기반 임베딩으로 변환되어 신경망이 이미지 특징과 통합합니다. 이 과정은 Segment Anything Model(SAM)과 같은 상호작용형 아키텍처의 핵심으로, 모델이 기하학적 프롬프트를 기반으로 마스크를 예측합니다.

시각적 프롬프트의 유연성은 다양한 상호작용 유형을 가능하게 합니다:

  • 포인트 프롬프트: 사용자가 관심 대상물을 표시하기 위해 특정 픽셀을 클릭합니다. 모델은 이 선택 영역을 전체 객체 경계로 확장합니다.
  • 박스 프롬프트: 바운딩 박스를 그리면 대략적인 위치를 파악하여 모델이 해당 영역 내의 classify segment classify 지시합니다.
  • 낙서 프롬프트: 물체 위에 손으로 그린 선은 물체가 겹치거나 유사한 질감을 가질 때 복잡한 장면의 모호함을 해소하는 데 도움이 될 수 있습니다.

CVPR 2024에서 발표된 최근 연구는 시각적 프롬프팅이 데이터 주석 작업에 소요되는 시간을 크게 단축시킨다는 점을 강조합니다. 이는 인간 주석자가 수동으로 다각형을 추적하는 대신 간단한 클릭만으로 모델 예측을 실시간으로 수정할 수 있기 때문입니다.

시각적 프롬프팅 대 텍스트 프롬프팅

두 기술 모두 모델의 행동을 유도하는 것을 목표로 하지만, 시각적 프롬프팅과 텍스트 기반 방법을 구분하는 것이 중요하다. 텍스트-이미지 생성 또는 제로샷 탐지는 의미적 설명(예: "빨간 차를 찾아라")을 해석하기 위해 자연어 처리(NLP)에 의존한다. 그러나 언어는 모호하거나 정확한 공간적 위치나 추상적인 형태를 설명하기에 불충분할 수 있다.

시각적 프롬프팅은 지시를 픽셀 공간 자체에 기반함으로써 이러한 모호성을 해결합니다. 예를 들어, 의료 영상 분석에서 의사가 의심스러운 결절을 클릭하는 것이 정확한 좌표와 불규칙한 형태를 텍스트로 설명하려는 시도보다 훨씬 정확합니다. 가장 강력한 워크플로는 종종 두 접근법을 결합합니다— 의미적 필터링에는 텍스트를, 공간적 정밀도에는 시각적 프롬프트를 사용하는 방식— 이를 다중 모달 학습이라고 합니다.

실제 애플리케이션

시각적 프롬프트의 적응성은 다양한 산업 분야에서 그 신속한 채택으로 이어졌습니다:

  • 상호작용형 의료 진단: 의사들은 시각적 유도 도구를 활용해 MRI 영상에서 종양이나 장기를 분리합니다. 관심 영역을 클릭하기만 하면 즉시 3D 체적 측정을 생성할 수 있어, 정확한 종양 탐지및 수술 계획 수립에 도움을 줍니다.
  • 스마트 사진 편집: Adobe Photoshop과 같은 소비자용 소프트웨어나 모바일 앱에서 시각적 프롬프트는 "매직 선택" 도구를 구동합니다. 사용자는 인물이나 물체를 탭하기만 하면 배경 제거나 대상별 필터 적용이 가능하며, 수동 마스킹 기술 없이도 기본적인 인스턴스 분할 기술을 활용할 수 있습니다.
  • 로봇 조작: 로봇 공학에서의 인공지능을 통해 로봇은 시각적 인터페이스를 통해 특정 물체를 집도록 지시받을 수 있습니다. 작업자가 로봇 카메라 영상에서 물체를 클릭하면 시각적 프롬프트가 제공되며, 로봇은 이를 집기 좌표로 변환하여 창고에서 인간이 개입하는 자동화를 가능하게 합니다.

Ultralytics 구현

Ultralytics 특히 FastSAM SAM 같은 모델을 통해 시각적 프롬프팅 워크플로를 지원합니다. 이러한 모델을 통해 개발자는 프로그래밍 방식으로 점 또는 박스 좌표를 전달하여 분할 마스크를 검색할 수 있습니다.

다음 예는 ultralytics 이미지에 점 프롬프트를 적용하여 모델이 특정 좌표에 위치한 segment 지시하는 패키지.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

모델 민첩성 향상

시각적 프롬프팅은 컴퓨터 비전이 "프롬프트 가능"한 방향으로 전환되는 것을 의미합니다. 이는 모델이 더 이상 정적인 "블랙박스"가 아닌 상호작용 도구로 변모함을 뜻합니다. 이러한 기능은 능동적 학습 루프에 필수적이며, 모델이 사용자 피드백을 통합함으로써 신속하게 개선되는 과정을 가능하게 합니다.

이러한 기능을 생산 환경에 통합하려는 개발자를 위해 Ultralytics 동적 입력을 처리할 수 있는 모델을 배포하고 데이터셋을 관리하는 도구를 제공합니다. 연구가 진전됨에 따라 시각적 프롬프트와 대규모 언어 모델(LLM) 간의 통합이 더욱 강화되어, 현재 텍스트를 처리하는 것과 동일한 유창성으로 시각적 입력에 대해 추론할 수 있는 시스템이 구현될 것으로 기대됩니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기