메타 AI의 새로운 세그먼트 애니씽 모델: SAM 3 살펴보기

Meta AI는 2025년 11월 19일, SAM 3라고도 알려진 Segment Anything Model 3을 출시했습니다. 이 최신 버전의 세그먼트 애니씽 모델은 텍스트 프롬프트, 시각적 프롬프트 및 이미지 예시를 사용하여 실제 이미지와 동영상에서 객체를 detect, segment 및 track 새로운 방법을 소개합니다.

SAM 3 모델은 다음을 기반으로 합니다. SAM 및 SAM 2를 기반으로 개념 세분화, 개방형 어휘 감지, 실시간 비디오 추적과 같은 새로운 발전된 기능을 제공합니다. 짧은 명사 구문을 이해하고, 여러 프레임에 걸쳐 객체를 추적하며, 이전 모델에서는 일관되게 처리할 수 없었던 세분화된 개념이나 희귀한 개념을 식별할 수 있습니다.

SAM 3 릴리스의 일환으로 메타는 SAM 3D도 도입했습니다. 이 차세대 모델 제품군은 단일 이미지에서 물체, 장면, 인체 전체를 재구성하고 Segment Anything 에코시스템을 3D 이해로 확장합니다. 이러한 추가 기능은 컴퓨터 비전, 로봇 공학, 미디어 편집, 크리에이티브 워크플로우 전반에 걸쳐 새로운 애플리케이션의 가능성을 열어줍니다.

이 글에서는 SAM 3의 정의, SAM 2와의 차이점, 모델 작동 방식 및 실제 적용 사례에 대해 살펴봅니다. 시작해 보겠습니다!

SAM 3란 무엇인가요? 메타의 세그먼트 애니씽 모델 3 살펴보기

SAM 3는 간단한 지시에 따라 이미지와 동영상에서 물체를 식별, 구분, track 수 있는 최첨단 컴퓨터 비전 모델입니다. SAM 3는 고정된 레이블 목록에 의존하는 대신 자연어와 시각적 단서를 이해하므로 찾고자 하는 대상을 모델에 쉽게 알려줄 수 있습니다.

예를 들어 SAM 3에서는 '노란색 스쿨버스' 또는 '줄무늬 고양이'와 같은 짧은 문구를 입력하거나 개체를 클릭하거나 이미지에서 예시를 강조 표시할 수 있습니다. 그러면 모델은 일치하는 모든 객체를 detect 깨끗한 분할 마스크(객체에 속하는 픽셀을 정확히 보여주는 시각적 윤곽선)를 생성합니다. SAM 3는 또한 비디오 프레임 전체에서 이러한 객체를 추적하여 객체가 움직일 때 일관성을 유지할 수 있습니다.

단일 이미지 3D 재구성을 가능하게 하는 SAM 3D

Meta AI가 발표한 또 다른 흥미로운 부분은 Segment Anything 프로젝트를 3D 이해로 확장한 SAM 3D입니다. SAM 3D는 하나의 2D 이미지를 촬영하여 물체나 인체의 모양, 포즈, 구조를 3차원으로 재구성할 수 있습니다. 즉, 이 모델은 하나의 시점만 있는 경우에도 사물이 공간을 어떻게 점유하는지 추정할 수 있습니다.

SAM 3D는 두 가지 모델로 출시되었습니다: 일상적인 사물을 기하학과 질감으로 재구성하는 SAM 3D 오브젝트와 단일 이미지에서 사람의 체형과 포즈를 추정하는 SAM 3D 바디가 그것입니다. 두 모델 모두 SAM 3의 분할 결과를 사용한 다음 원본 사진에서 물체의 모양과 위치에 맞는 3D 표현을 생성합니다.

그림 1. SAM 3D 사용 예시. (출처: Meta AI의 segment 애니웨어 플레이그라운드를 사용하여 제작)

‍

SAM 3: 탐지, 세분화 및 추적을 통합하는 새로운 기능

탐지, 세분화, 추적을 하나의 통합 모델로 통합하기 위해 SAM 3에 도입된 몇 가지 주요 업데이트는 다음과 같습니다:

개념 세분화 작업: SAM SAM 2에서 객체 분할은 클릭이나 상자와 같은 시각적 프롬프트에 의존했습니다. SAM 3에는 짧은 텍스트 문구 또는 이미지에서 잘라낸 예시를 기반으로 객체를 segment 기능이 추가되었습니다. 즉, 모델은 각각의 클릭 없이도 일치하는 모든 인스턴스를 식별할 수 있습니다.
‍
어휘 텍스트 프롬프트 열기: 이전 버전과 달리 SAM 3는 짧은 자연어 구문을 해석할 수 있습니다. 따라서 고정된 레이블 목록이 필요하지 않으며 모델이 보다 구체적이거나 덜 일반적인 개념으로 작업할 수 있습니다.
‍
탐지, 세분화, 추적을 위한 단일 모델: SAM 3는 탐지, 세그멘테이션, 추적을 하나의 모델로 통합하여 객체를 찾고, 세그멘테이션 마스크를 생성하고, 비디오 프레임 전체에서 객체를 추적하기 위해 별도의 시스템을 사용할 필요가 없습니다. 이를 통해 이미지와 동영상 모두에 대해 보다 일관되고 간소화된 워크플로우가 만들어지며, SAM 2에서도 일부 추적 기능을 제공했지만 SAM 3는 훨씬 더 강력하고 안정적인 성능을 제공합니다.
‍
복잡한 장면에서 더욱 안정적인 결과 제공: SAM 3는 텍스트, 예시 이미지, 시각적 프롬프트를 결합할 수 있으므로 시각적 클릭에만 의존하던 이전 버전에 비해 복잡하거나 반복적인 장면을 더 안정적으로 처리할 수 있습니다.

그림 2. SAM 3은 텍스트 또는 이미지 예시를 통해 개념 세분화를 소개합니다.(출처)

‍

SAM 3 대 SAM 2 대 SAM 1 비교

다양한 동물이 등장하는 사파리 동영상을 보고 있는데 코끼리만 detect segment 한다고 가정해 보겠습니다. 이 작업을 여러 버전의 SAM 어떻게 수행할 수 있을까요?

SAM 사용하면 각 프레임에서 각 코끼리를 수동으로 클릭하여 세그먼테이션 마스크를 생성해야 합니다. 트래킹이 없으므로 새로운 프레임마다 새로운 클릭이 필요합니다.

SAM 2를 사용하면 코끼리를 한 번 클릭하고 마스크를 가져오면 모델이 비디오에서 동일한 코끼리를 track 수 있습니다. 하지만 SAM 2는 '코끼리'와 같은 카테고리를 자체적으로 이해하지 못하기 때문에 여러 코끼리(특정 개체)를 segment 여전히 별도의 클릭을 제공해야 합니다.

SAM 3를 사용하면 워크플로우가 훨씬 더 간단해집니다. '코끼리'를 입력하거나 하나의 코끼리 주위에 경계 상자를 그려 예시를 제공하면 모델이 자동으로 비디오의 모든 코끼리를 찾아 segment 프레임 전체에 걸쳐 일관되게 track . 이전 버전에서 사용했던 클릭 및 상자 프롬프트는 여전히 지원하지만, 이제 SAM SAM 2에서는 할 수 없었던 텍스트 프롬프트와 예시 이미지에도 응답할 수 있습니다.

SAM 3 모델의 작동 방식

다음으로 SAM 3 모델이 어떻게 작동하고 어떻게 훈련되었는지 자세히 살펴보겠습니다.

SAM 3의 모델 아키텍처 개요

SAM 3는 여러 구성 요소를 통합하여 단일 시스템에서 개념 프롬프트와 시각적 프롬프트를 지원합니다. 이 모델의 핵심은 메타의 통합 오픈 소스 이미지-텍스트 인코더인 메타 퍼셉션 인코더를 사용합니다.

이 인코더는 이미지와 짧은 명사 구문을 모두 처리할 수 있습니다. 간단히 말해, SAM 3는 이전 버전의 세그먼트 애니씽 모델보다 언어와 시각적 기능을 더 효과적으로 연결할 수 있습니다.

이 인코더 외에도 SAM 3에는 DETR 변압기 모델 제품군을 기반으로 하는 감지기가 포함되어 있습니다. 이 감지기는 이미지에서 물체를 식별하고 시스템이 사용자의 프롬프트에 해당하는 물체를 판단하는 데 도움을 줍니다.

특히, 비디오 분할의 경우 SAM 3는 SAM 2의 메모리 뱅크와 메모리 인코더를 기반으로 구축된 추적 구성 요소를 사용합니다. 이를 통해 모델은 여러 프레임에 걸쳐 객체에 대한 정보를 보유할 수 있으므로 시간이 지나도 객체를 재식별하고 track 수 있습니다.

‍

세그먼트 애니씽 모델 3의 확장 가능한 데이터 엔진

SAM 3를 학습시키기 위해 Meta는 현재 인터넷에 존재하는 것보다 훨씬 더 많은 주석이 달린 데이터가 필요했습니다. 고품질의 분할 마스크와 텍스트 레이블은 대규모로 생성하기 어렵고 이미지와 동영상에서 개념의 모든 인스턴스를 완전히 설명하는 것은 느리고 비용이 많이 듭니다.

이를 해결하기 위해 메타는 SAM 3 자체, 추가 AI 모델, 인간 주석가들이 함께 작업하는 새로운 데이터 엔진을 구축했습니다. 워크플로는 SAM 3와 라마 기반 캡션 모델을 포함한 AI 시스템 파이프라인으로 시작됩니다.

이러한 시스템은 대량의 이미지와 동영상 컬렉션을 스캔하여 캡션을 생성하고, 캡션을 텍스트 레이블로 변환하여 초기 세그멘테이션 마스크 후보를 생성합니다. 그런 다음 사람과 AI 주석가가 이 후보를 검토합니다.

마스크 품질 확인 및 개념 적용 범위 확인과 같은 작업에서 사람의 정확도와 비슷하거나 심지어 능가하도록 훈련된 AI 주석 작성기는 간단한 사례를 걸러냅니다. 모델이 여전히 어려움을 겪을 수 있는 더 까다로운 사례에 대해서만 사람이 개입합니다.

‍

이 접근 방식은 Meta의 주석 속도를 크게 향상시킵니다. AI 어노테이터가 쉬운 사례를 처리하도록 함으로써 세분화된 도메인에서 부정적인 프롬프트에서는 약 5배, 긍정적인 프롬프트에서는 36% 더 빠르게 파이프라인을 처리할 수 있습니다.

이러한 효율성 덕분에 데이터 세트를 400만 개 이상의 고유 개념으로 확장할 수 있었습니다. 또한 AI 제안, 사람의 수정, 업데이트된 모델 예측의 지속적인 반복은 시간이 지남에 따라 라벨 품질을 개선하고 SAM 3가 훨씬 더 광범위한 시각 및 텍스트 기반 개념을 학습하는 데 도움이 됩니다.

SAM 3의 성능 개선

성능 측면에서 SAM 3는 이전 모델에 비해 뚜렷한 개선이 이루어졌습니다. 개방형 어휘 개념 감지 및 세분화를 평가하는 Meta의 새로운 SA-Co 벤치마크에서 SAM 3는 이미지와 비디오 모두에서 이전 시스템보다 약 두 배의 성능을 달성했습니다.

또한 포인트 투 마스크 및 마스크 투 마스클릿과 같은 대화형 시각 작업에서 SAM 2와 일치하거나 이를 능가합니다. 메타는 제로 샷 LVIS(모델이 훈련 예제 없이 희귀 카테고리를 인식해야 하는 경우) 및 객체 카운팅(객체의 모든 인스턴스가 감지되는지 측정)과 같은 더 어려운 평가에서 추가적인 이점을 보고하여 여러 도메인에서 더 강력한 일반화를 강조합니다.

이러한 정확도 향상 외에도 SAM 3는 H200 GPU 100개 이상의 물체가 감지된 이미지를 약 30밀리초 만에 처리하고 동영상에서 여러 물체를 추적할 때 실시간에 가까운 속도를 유지하는 등 효율적입니다.

세그먼트 애니씽 모델 3의 애플리케이션

이제 SAM 3에 대해 더 잘 이해했으니, 고급 텍스트 기반 추론부터 과학 연구 및 메타의 자체 제품에 이르기까지 실제 애플리케이션에서 어떻게 사용되고 있는지 살펴봅시다.

SAM 3 에이전트를 사용하여 복잡한 텍스트 쿼리 처리하기

SAM 3는 메타에서 SAM 3 에이전트라고 부르는 더 큰 멀티모달 언어 모델 내부의 도구로도 사용할 수 있습니다. 에이전트는 SAM 3에게 "코끼리"와 같은 짧은 문구를 제공하는 대신 더 복잡한 질문을 SAM 3가 이해할 수 있는 작은 프롬프트로 나눌 수 있습니다.

예를 들어 사용자가 "그림에서 말을 제어하고 안내하는 데 사용되는 물체는 무엇인가요?"라고 질문하면 에이전트는 다양한 명사 구문을 시도하여 SAM 3에 전송하고 어떤 마스크가 적합한지 확인합니다. 올바른 사물을 찾을 때까지 계속 세분화합니다.

SAM 3 에이전트는 특별한 추론 데이터 세트에 대한 훈련 없이도 ReasonSeg 및 OmniLabel과 같은 복잡한 텍스트 쿼리를 위해 설계된 벤치마크에서 우수한 성능을 발휘합니다. 이는 SAM 3가 언어 이해와 세분화된 시각적 세분화가 모두 필요한 시스템을 지원할 수 있음을 보여줍니다.

SAM 3의 과학 및 보존 응용 분야

흥미롭게도 SAM 3는 이미 상세한 시각적 라벨이 중요한 연구 환경에서 사용되고 있습니다. 메타는 Conservation X Labs 및 Osa Conservation과 협력하여 10,000개 이상의 카메라 트랩 비디오가 포함된 공공 야생동물 모니터링 데이터 세트인 SA-FARI를 구축했습니다.

모든 프레임의 모든 동물에는 상자와 분할 마스크가 라벨로 표시되는데, 수작업으로 주석을 달려면 시간이 많이 걸립니다. 마찬가지로 해양 연구에서도 SAM 3는 FathomNet 및 MBARI와 함께 수중 이미지를 위한 인스턴스 분할 마스크를 생성하고 새로운 평가 벤치마크를 지원하는 데 사용되고 있습니다.

이러한 데이터 세트는 과학자들이 비디오 영상을 보다 효율적으로 분석하고 일반적으로 대규모로 track 어려운 동물과 서식지를 연구하는 데 도움이 됩니다. 또한 연구자들은 이러한 리소스를 사용하여 종 식별, 행동 분석 및 자동화된 생태 모니터링을 위한 자체 모델을 구축할 수 있습니다.

Meta가 제품 전반에 SAM 3를 배포하는 방법

SAM 3는 연구용 외에도 Meta의 소비자 제품 전반에 걸쳐 새로운 기능과 사용 사례를 지원하고 있습니다. 이미 통합되고 있는 몇 가지 방법을 소개합니다:

Instagram 편집: 크리에이터는 프레임 단위로 수동 작업을 하지 않고도 동영상에서 특정 인물이나 사물에 효과를 적용할 수 있습니다.
↪f_200D↩
메타 AI 앱과 웹의 meta.ai: SAM 3는 이미지와 동영상을 수정, 향상, 리믹스할 수 있는 새로운 도구를 지원합니다.
‍
Facebook 마켓플레이스의 '방에서 보기': SAM 3는 SAM 3D와 연동하여 사진 한 장으로 집 안의 가구나 장식을 미리 볼 수 있습니다.
‍
Aria 2세대 연구용 안경: Segment Anything Model 3은 1인칭 시점에서 손과 물체를 segment track AR(증강 현실), 로봇 공학 및 상황에 맞는 AI 연구를 지원합니다.

주요 내용

SAM 3는 세분화를 위한 흥미로운 진전입니다. 개념 세분화, 개방형 어휘 텍스트 프롬프트, 향상된 추적 기능을 도입했습니다. 이미지와 비디오 모두에서 눈에 띄게 강력해진 성능과 SAM 3D가 추가된 이 모델 제품군은 비전 AI, 크리에이티브 도구, 과학 연구 및 실제 제품에 대한 새로운 가능성을 열어줍니다.

커뮤니티에 가입하고 GitHub 리포지토리를 살펴보고 AI에 대해 자세히 알아보세요. 자체 Vision AI 프로젝트를 구축하려는 경우 라이선스 옵션을 확인하세요. 솔루션 페이지에서 의료 분야의 AI와 리테일 분야의 Vision AI와 같은 애플리케이션에 대해 자세히 알아보세요.

SAM 3: 메타 AI의 새로운 세그먼트 애니씽 모델 살펴보기