YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

Meta AI의 Segment Anything Model 2 (SAM 2)의 활용

Abirami Vina

5분 분량

2024년 7월 31일

Meta AI의 Segment Anything Model 2(SAM 2)를 자세히 살펴보고 다양한 산업 분야에서 실시간 애플리케이션에 어떻게 사용될 수 있는지 알아보세요.

2024년 7월 29일, Meta AI는 Segment Anything Model의 두 번째 버전인 SAM 2를 출시했습니다. 새로운 모델은 이미지와 비디오 모두에서 대상 객체에 속하는 픽셀을 정확히 찾아낼 수 있습니다! 가장 좋은 점은 모델이 실시간으로 비디오의 모든 프레임에서 객체를 일관되게 추적할 수 있다는 것입니다. SAM 2는 비디오 편집, 혼합 현실 경험컴퓨터 비전 시스템 훈련을 위한 시각적 데이터의 더 빠른 주석 달기에 대한 흥미로운 가능성을 열어줍니다.

해양 과학, 위성 이미지, 의학과 같은 분야에서 사용된 기존 SAM의 성공을 바탕으로 SAM 2는 빠르게 움직이는 물체 및 외관 변화와 같은 문제를 해결합니다. 향상된 정확성과 효율성으로 인해 광범위한 애플리케이션에 사용할 수 있는 다용도 도구입니다. 이 기사에서는 SAM 2를 적용할 수 있는 위치와 AI 커뮤니티에 중요한 이유에 대해 중점적으로 설명합니다.

SAM 2란 무엇인가?

Segment Anything Model 2는 이미지와 비디오 모두에서 프롬프트 가능한 시각적 분할 또는 PVS를 지원하는 고급 파운데이션 모델입니다. PVS는 모델이 사용자가 제공한 특정 프롬프트 또는 입력을 기반으로 이미지 또는 비디오의 여러 부분을 분할하거나 식별할 수 있는 기술입니다. 이러한 프롬프트는 관심 영역을 강조 표시하는 클릭, 상자 또는 마스크 형태일 수 있습니다. 그러면 모델은 지정된 영역의 윤곽을 나타내는 분할 마스크를 생성합니다.

SAM 2 아키텍처는 이미지 분할에서 비디오 분할로 확장하여 원래 SAM을 기반으로 구축되었습니다. 이미지 데이터와 프롬프트를 사용하여 분할 마스크를 생성하는 경량 마스크 디코더가 특징입니다. 비디오의 경우 SAM 2는 이전 프레임의 정보를 기억하여 시간이 지남에 따라 정확한 추적을 보장하는 메모리 시스템을 도입했습니다. 메모리 시스템에는 분할되는 객체에 대한 세부 정보를 저장하고 회수하는 구성 요소가 포함되어 있습니다. SAM 2는 또한 폐색을 처리하고, 여러 프레임을 통해 객체를 추적하고, 가능한 여러 마스크를 생성하여 모호한 프롬프트를 관리할 수 있습니다. SAM 2의 고급 아키텍처는 정적 및 동적 시각 환경 모두에서 매우 유능합니다.

특히 비디오 분할과 관련하여 SAM 2는 이전 방법보다 사용자 상호 작용이 3배 적으면서 더 높은 정확도를 달성합니다. 이미지 분할의 경우 SAM 2는 원래 Segment Anything Model(SAM)보다 6배 더 빠르고 정확합니다. 이러한 개선 사항은 SAM이 이전에 테스트한 23개를 포함하여 37개의 서로 다른 데이터 세트에 걸쳐 SAM 2 연구 논문에 소개되었습니다. 

Fig 1. SAM과 SAM 2를 비교합니다.

흥미롭게도 Meta AI의 SAM 2는 현재까지 가장 큰 비디오 분할 데이터 세트인 SA-V 데이터 세트를 만들어 개발되었습니다. 광범위한 데이터 세트에는 50,000개 이상의 비디오와 3,550만 개의 분할 마스크가 포함되어 있으며 대화형 사용자 기여를 통해 수집되었습니다. 주석자는 모델이 다양한 시나리오와 객체 유형에서 학습할 수 있도록 프롬프트와 수정 사항을 제공했습니다.

Segment Anything Model 2의 응용 분야

이미지 및 비디오 분할의 고급 기능 덕분에 SAM 2는 다양한 산업 분야에서 사용될 수 있습니다. 이러한 애플리케이션 중 일부를 살펴보겠습니다.

SAM 2는 증강 현실(AR) 및 가상 현실(VR)을 지원합니다.

Meta AI의 새로운 분할 모델은 증강 현실(AR) 및 가상 현실(VR) 애플리케이션에 사용할 수 있습니다. 예를 들어 SAM 2는 실제 객체를 정확하게 식별하고 분할하여 가상 객체와의 상호 작용을 더욱 현실적으로 느끼게 합니다. 가상 요소와 실제 요소 간의 현실적인 상호 작용이 필수적인 게임, 교육 및 훈련과 같은 다양한 분야에서 유용할 수 있습니다.

AR 안경과 같은 장치가 더욱 발전함에 따라 SAM 2의 기능이 곧 통합될 수 있습니다. 안경을 쓰고 거실을 둘러보는 것을 상상해 보세요. 안경이 강아지 물그릇을 분할하고 감지하면 아래 이미지에서 볼 수 있듯이 물을 채우라고 알려줄 수 있습니다. 또는 새로운 레시피로 요리하는 경우 안경이 조리대 위의 재료를 식별하고 단계별 지침과 팁을 제공하여 요리 경험을 개선하고 필요한 모든 항목을 손에 넣을 수 있도록 합니다.

Fig 2. SAM 2는 곧 AR 안경에 사용될 수 있습니다.

SAM(Segment Anything Model 2)을 사용한 소나 이미징

SAM 모델을 사용한 연구에 따르면 소나 이미징과 같은 특수 분야에 적용할 수 있습니다. 소나 이미징은 낮은 해상도, 높은 노이즈 수준, 이미지 내 객체의 복잡한 모양으로 인해 고유한 어려움이 있습니다. 연구자들은 소나 이미지에 대해 SAM을 미세 조정하여 해양 파편, 지질 구조 및 기타 관심 항목과 같은 다양한 수중 객체를 정확하게 분할하는 능력을 입증했습니다. 정확하고 신뢰할 수 있는 수중 이미징은 해양 연구, 수중 고고학, 어업 관리 및 해저 지형 매핑, 유물 발견 및 위협 감지와 같은 작업에 대한 감시에 사용될 수 있습니다.

Fig 3. 미세 조정된 SAM을 사용하여 소나 이미지 분할을 수행하는 예시입니다.

SAM 2는 SAM이 직면한 많은 과제를 기반으로 개선되었기 때문에 소나 영상 분석을 더욱 개선할 수 있는 잠재력이 있습니다. 정밀한 분할 기능은 과학 연구 및 어업을 포함한 다양한 해양 응용 분야에 도움이 될 수 있습니다. 예를 들어 SAM 2는 수중 구조물을 효과적으로 윤곽을 그리고, 해양 쓰레기를 탐지하고, 전방 탐색 소나 이미지에서 물체를 식별하여 보다 정확하고 효율적인 수중 탐사 및 모니터링에 기여할 수 있습니다.

다음은 SAM 2를 사용하여 소나 이미지를 분석할 때 얻을 수 있는 잠재적 이점입니다.

  • 효율성: 수동 분할에 필요한 시간과 노력을 줄여 전문가가 분석 및 의사 결정에 더 집중할 수 있도록 합니다.
  • 일관성: 대규모 해양 연구 및 모니터링에 필수적인 일관되고 재현 가능한 분할 결과를 제공합니다.
  • 다재다능함: 광범위한 소나 이미지를 처리할 수 있어 해양 과학 및 산업 분야의 다양한 응용 분야에 유용합니다.

해양 산업은 SAM 2를 소나 이미징 프로세스에 통합함으로써 수중 탐사 및 분석에서 더 높은 효율성, 정확성 및 신뢰성을 달성하여 궁극적으로 해양 연구에서 더 나은 결과를 얻을 수 있습니다.

자율 주행 차량에 SAM 2 사용

SAM 2의 또 다른 응용 분야는 자율 주행 차량입니다. SAM 2는 보행자, 다른 차량, 도로 표지판 및 장애물과 같은 객체를 실시간으로 정확하게 식별할 수 있습니다. SAM 2가 제공할 수 있는 세부 수준은 안전한 탐색 및 충돌 방지 결정을 내리는 데 필수적입니다. 시각적 데이터를 정확하게 처리함으로써 SAM 2는 환경에 대한 상세하고 신뢰할 수 있는 지도를 만들고 더 나은 의사 결정을 내릴 수 있도록 지원합니다.

그림 4. 분할을 사용하여 트래픽을 이해합니다. 

SAM 2는 다양한 조명 조건, 날씨 변화 및 역동적인 환경에서 원활하게 작동하므로 자율 주행 차량에 적합합니다. SAM 2는 복잡한 도시 거리나 안개가 자욱한 고속도로에서도 일관되게 객체를 정확하게 식별하고 분할하여 차량이 다양한 상황에 올바르게 대응할 수 있도록 합니다. 

하지만 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 복잡하고 빠르게 움직이는 물체의 경우 SAM 2는 때때로 미세한 디테일을 놓칠 수 있으며 예측이 프레임 간에 불안정해질 수 있습니다. 또한 SAM 2는 혼잡한 장면에서 여러 개의 유사하게 보이는 물체를 혼동할 수 있습니다. 이러한 문제 때문에 자율 주행 애플리케이션에서 추가 센서 및 기술의 통합이 매우 중요합니다.

SAM 2를 활용한 환경 모니터링

컴퓨터 비전을 사용한 환경 모니터링은 특히 어노테이션된 데이터가 부족할 때 까다로울 수 있지만, 이는 SAM 2를 흥미로운 애플리케이션으로 만드는 이유이기도 합니다. SAM 2는 위성 또는 드론 이미지에서 산림, 수역, 도시 지역, 농경지와 같은 다양한 환경적 특징을 정확하게 분할하고 식별하여 자연 경관의 변화를 추적하고 분석하는 데 사용할 수 있습니다. 특히, 정확한 분할은 삼림 벌채, 도시화, 토지 이용의 시간 경과에 따른 변화를 모니터링하여 환경 보존 및 계획에 대한 귀중한 데이터를 제공하는 데 도움이 됩니다.

SAM 2와 같은 모델을 사용하여 시간 경과에 따른 환경 변화를 분석할 때의 이점은 다음과 같습니다:

  • 조기 감지: 환경 악화의 초기 징후를 식별하여 추가 손상을 방지하기 위한 적절한 개입이 가능합니다.
  • 리소스 관리: 다양한 환경 기능의 상태에 대한 자세한 통찰력을 제공하여 천연 자원을 효율적으로 관리하는 데 도움을 줍니다.
  • 생물 다양성 보존: 야생 동물 추적 및 생물 다양성 모니터링에 도움이 되어 보존 노력과 멸종 위기 종 보호에 기여합니다.
  • 재난 대응: 홍수, 산불, 허리케인과 같은 자연 재해의 영향을 평가하는 데 도움을 주어 신속하고 효과적인 재난 대응 및 복구 계획을 가능하게 합니다.

SAM 2로 비디오 편집하기: 직접 사용해 보세요

Segment Anything 2 데모는 비디오에서 모델을 시험해 보기에 아주 좋은 방법입니다. SAM 2의 PVS 기능을 사용하여 기존의 Ultralytics YouTube 비디오에서 세 개의 객체 또는 사람을 분할하고 픽셀화할 수 있었습니다. 기존 방식대로라면 비디오에서 세 사람을 편집하는 것은 시간이 오래 걸리고 지루하며 프레임 단위로 수동 마스킹해야 합니다. 그러나 SAM 2는 이 프로세스를 간소화합니다. 데모에서 몇 번의 클릭만으로 몇 초 만에 세 개의 관심 객체의 신원을 보호할 수 있습니다.

그림 6. SAM 2 데모 체험. 

이 데모에서는 추적할 객체에 스포트라이트를 비추거나 추적 중인 객체를 지우는 등 몇 가지 다양한 시각 효과를 시험해 볼 수도 있습니다. 데모가 마음에 들고 SAM 2로 혁신을 시작할 준비가 되었다면 Ultralytics SAM 2 모델 문서 페이지에서 모델 사용 방법에 대한 자세한 지침을 확인하십시오. 기능, 설치 단계 및 예제를 살펴보고 프로젝트에서 SAM 2의 잠재력을 최대한 활용하십시오!

마무리

Meta AI의 Segment Anything Model 2(SAM 2)는 비디오 및 이미지 분할을 혁신하고 있습니다. 객체 추적과 같은 작업이 개선됨에 따라 비디오 편집, 혼합 현실, 과학 연구 및 의료 영상 분야에서 새로운 기회를 발견하고 있습니다. 복잡한 작업을 더 쉽게 만들고 주석 작업 속도를 높임으로써 SAM 2는 AI 커뮤니티의 중요한 도구가 될 것입니다. SAM 2와 같은 모델로 계속 탐구하고 혁신함에 따라 다양한 분야에서 훨씬 더 획기적인 응용 프로그램과 발전이 있을 것으로 예상할 수 있습니다!

GitHub 저장소를 탐색하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 제조의료 분야의 AI에 대한 자세한 내용은 솔루션 페이지를 확인하세요. 🚀

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.