Meta FAIR의 AI 연구 업데이트: SAM 2.1 및 CoTracker3
다양한 실제 애플리케이션을 위한 고급 세그먼테이션 및 추적 기능을 제공하는 Meta FAIR의 최신 AI 모델인 SAM 2.1과 CoTracker3를 살펴보세요.

인공지능(AI)은 최근 새로운 혁신과 획기적인 발전이 그 어느 때보다 빠르게 나타나며 뜨거운 관심과 에너지가 집중되고 있는 연구 분야입니다. 지난 몇 주 동안 Meta의 Fundamental AI Research(FAIR) 팀은 다양한 AI 분야의 과제를 해결하기 위한 일련의 도구와 모델을 공개했습니다. 이번 발표에는 의료, 로봇 공학, 증강 현실 등 다양한 분야에 영향을 미칠 수 있는 업데이트가 포함되어 있습니다.
예를 들어, 업데이트된 SAM 2.1 모델은 객체 분할 기능을 향상시켜 이미지 및 영상 내 객체를 더 정확하게 식별하고 분리할 수 있도록 합니다. 한편, CoTracker3는 포인트 트래킹에 집중하여 객체가 움직이거나 부분적으로 가려지는 경우에도 영상 프레임 내 포인트들을 지속적으로 추적할 수 있도록 지원합니다.
Meta has also introduced lighter, faster versions of its Llama language model for efficient on-device use, along with new tactile sensing technology for robotics. In this article, we’ll break down these latest releases from Meta FAIR, looking at what each tool offers. Let’s get started!
Link to this sectionMeta의 향상된 Segment Anything Model: SAM 2.1#
객체 분할은 핵심적인 컴퓨터 비전 작업으로, 이미지나 영상 내에서 서로 다른 객체를 식별하고 분리하여 특정 관심 영역을 더 쉽게 분석할 수 있게 합니다. 출시 이후 Meta의 Segment Anything Model 2 (SAM 2)는 의료 영상 및 기상학과 같은 다양한 분야에서 객체 분할을 위해 사용되어 왔습니다. 커뮤니티의 피드백을 바탕으로 Meta는 이제 SAM 2.1을 도입했습니다. 이 개선된 버전은 기존 모델에서 발생하던 일부 문제를 해결하고 전반적으로 더 강력한 성능을 제공하도록 설계되었습니다.

그림 1. SAM 2.1 모델 성능 벤치마킹.
SAM 2.1 includes updates to better handle visually similar and smaller objects, thanks to new data augmentation techniques. It also improves how the model deals with occlusion (when parts of an object are hidden from view) by training it on longer video sequences, allowing it to "remember" and recognize objects over time, even if they’re temporarily blocked. For example, if someone is filming a video of a person walking behind a tree, SAM 2.1 can track the person as they reappear on the other side, using its memory of the object’s position and movement to fill in gaps when the view is briefly interrupted.
Alongside these updates, Meta has released the SAM 2 Developer Suite, providing open-source training code and full demo infrastructure so developers can fine-tune SAM 2.1 with their own data and integrate it into a range of applications.
Link to this sectionCoTracker3: Meta의 추적 모델과 주요 기능 및 업데이트#
또 다른 흥미로운 컴퓨터 비전 작업은 포인트 트래킹입니다. 이는 영상의 여러 프레임에 걸쳐 특정 포인트나 특징을 따라가는 것을 포함합니다. 트랙을 따라가는 사이클리스트의 영상을 생각해 보십시오. 포인트 트래킹을 사용하면 장애물에 잠시 가려지더라도 헬멧이나 바퀴와 같은 사이클리스트의 포인트들을 계속 추적할 수 있습니다.
포인트 트래킹은 3D 재구성, 로봇 공학, 영상 편집과 같은 애플리케이션에 필수적입니다. 기존 모델들은 종종 복잡한 설정과 대규모 합성 데이터셋에 의존하며, 이는 실제 상황에 적용할 때 효과를 제한하는 요소가 됩니다.
Meta의 CoTracker3 추적 모델은 모델 아키텍처를 단순화하여 이러한 한계를 해결합니다. 또한 실제 주석이 달리지 않은 영상에서 모델이 학습할 수 있도록 하는 의사 라벨링 기술을 도입하여 실제 사용 환경에서 CoTracker3의 효율성과 확장성을 높였습니다.

그림 2. CoTracker3와 다른 추적 모델 비교.
CoTracker3의 두드러진 특징 중 하나는 오클루전을 효과적으로 처리할 수 있다는 점입니다. CoTracker3는 모델이 여러 추적 포인트 간에 정보를 공유할 수 있도록 하는 기술인 크로스 트랙 어텐션을 사용하여, 보이는 포인트를 참조함으로써 가려진 포인트의 위치를 추론할 수 있습니다. 이를 통해 CoTracker3는 혼잡한 장면에서 사람을 따라가는 것과 같은 역동적인 환경에서 매우 효과적으로 작동하도록 설계되었습니다.
또한 CoTracker3는 온라인 및 오프라인 모드를 모두 제공합니다. 온라인 모드는 실시간 추적을 제공하며, 오프라인 모드는 영상 편집이나 애니메이션과 같은 작업에 이상적인 전체 영상 시퀀스에 걸친 포괄적인 추적에 사용될 수 있습니다.
Link to this sectionMeta FAIR의 기타 업데이트 및 연구#
SAM 2.1과 CoTracker3가 computer vision 분야에서 Meta의 최신 발전을 보여주는 한편, AI의 다른 영역인 natural language processing (NLP) 및 robotics에서도 흥미로운 업데이트가 있습니다. Meta FAIR의 다른 최근 개발 사례들을 살펴보겠습니다.
Link to this sectionMeta의 Spirit LM: 언어 및 멀티모달 모델의 AI 혁신#
Meta’s Spirit LM is a new multimodal language model that combines text and speech capabilities, making interactions with AI feel more natural. Unlike traditional models that handle only text or only speech, Spirit LM can seamlessly switch between the two.
Spirit LM은 더욱 인간과 유사하게 느껴지는 방식으로 언어를 이해하고 생성할 수 있습니다. 예를 들어, 음성이나 글로 듣고 응답할 수 있는 가상 비서를 향상하거나 음성과 텍스트를 변환하는 접근성 도구를 지원할 수 있습니다.

그림 3. Meta Spirit LM을 사용한 텍스트-음성 변환 예시.
게다가 Meta는 대규모 언어 모델을 더 효율적으로 만들기 위한 기술들을 개발했습니다. 'Layer Skip'이라 불리는 이 기술 중 하나는 특정 작업에 필요한 레이어만 활성화함으로써 컴퓨팅 요구량과 에너지 비용을 줄여줍니다. 이는 메모리와 전력이 제한된 온디바이스 애플리케이션에 특히 유용합니다.
Taking the need to deploy AI applications on such devices a step further, Meta has also rolled out quantized versions of its Llama models. These models are compressed to run faster on mobile devices without sacrificing accuracy.
Link to this sectionMeta Lingua를 통한 최적화의 미래 전망#
AI models의 규모와 복잡성이 커짐에 따라 training 프로세스를 최적화하는 것이 중요해졌습니다. optimization과 관련하여 Meta는 large language models 학습을 더 쉽게 만들어 주는 유연하고 효율적인 코드베이스인 Meta Lingua를 도입했습니다. Meta Lingua의 모듈식 설계는 researchers들이 실험을 빠르게 커스터마이징하고 확장할 수 있도록 합니다.
연구자들은 기술 설정에 시간을 덜 들이고 실제 연구에 더 집중할 수 있습니다. 코드베이스는 또한 가볍고 통합이 쉬워 소규모 실험과 대규모 프로젝트 모두에 적합합니다. 이러한 기술적 걸림돌을 제거함으로써 Meta Lingua는 연구자들이 더 빠르게 성과를 내고 새로운 아이디어를 더 쉽게 테스트할 수 있도록 돕습니다.

그림 4. Meta Lingua 개요.
Link to this sectionMeta의 AI 보안 강화#
As quantum computing technology advances, it brings new challenges to data security. Unlike today’s computers, it’s likely that quantum computers will be able to solve complex calculations much faster. This means they could potentially break the encryption methods currently used to protect sensitive information. That’s why research in this field is becoming increasingly important - developing new ways to protect data is essential as we prepare for the future of quantum computing.
이를 해결하기 위해 Meta는 포스트 양자 암호화 보안을 강화하는 도구인 Salsa를 개발했습니다. Salsa는 연구자들이 AI 기반 공격을 테스트하고 잠재적 약점을 식별할 수 있도록 지원하여 암호화 시스템의 취약성을 더 잘 이해하고 해결하도록 돕습니다. 고급 공격 시나리오를 시뮬레이션함으로써 Salsa는 양자 시대를 위한 더 강력하고 회복력 있는 보안 조치 개발을 안내할 수 있는 귀중한 통찰력을 제공합니다.
Link to this sectionMeta의 AI: 로봇 공학의 최신 혁신#
Meta의 로봇 공학 연구는 촉각 인식, 민첩성, 인간과의 협업을 향상시켜 AI가 물리적 세계와 더 자연스럽게 상호작용하도록 돕는 데 중점을 둡니다. 특히 Meta Digit 360은 로봇에게 정교한 촉감을 제공하는 고급 촉각 센서입니다. 이 센서들은 로봇이 질감, 압력, 객체의 모양과 같은 세부 사항을 감지하도록 돕습니다. 이러한 통찰력을 바탕으로 로봇은 의료 및 제조와 같은 분야에서 필수적인 더 정밀한 작업으로 객체를 다룰 수 있습니다.
다음은 Meta Digit 360이 포함하는 핵심 기능들입니다:
- 다양한 촉각 세부 정보를 캡처할 수 있도록 18개의 독특한 센싱 기능을 갖추고 있습니다.
- 이 센서는 1밀리뉴턴만큼 작은 압력 변화를 감지할 수 있어 로봇이 미세한 질감과 섬세한 움직임에 반응할 수 있습니다.
- 손가락 끝 표면에 800만 개 이상의 택셀(tiny sensing points)이 포함되어 있어 고해상도의 촉각 정보 지도를 제공합니다.
Meta Digit 360의 확장판은 다양한 촉각 센서를 하나의 로봇 손에 통합하는 플랫폼인 Meta Digit Plexus입니다. 이 설정을 통해 로봇은 인간의 손이 감각 데이터를 수집하는 방식과 유사하게 여러 지점에서 발생하는 촉각 정보를 동시에 처리할 수 있습니다.

그림 5. Meta Digit Plexus.
Link to this sectionAI의 다음 장을 위한 발판 마련#
SAM 2.1과 CoTracker3를 통한 컴퓨터 비전의 발전부터 언어 모델과 로봇 공학의 새로운 개발에 이르는 Meta의 최신 AI 업데이트는 AI가 어떻게 이론에서 실제적이고 영향력 있는 솔루션으로 꾸준히 이동하고 있는지를 보여줍니다.
이 도구들은 AI를 다양한 분야에서 더 적응력 있고 유용하게 만들도록 설계되었으며, 복잡한 이미지 분할부터 인간 언어 이해, 심지어 물리적 공간에서 우리와 함께 작업하는 것까지 모든 것을 지원합니다.
접근성과 실제 적용을 우선시함으로써 Meta FAIR는 AI가 실제 문제를 해결하고 우리의 일상을 의미 있게 향상할 수 있는 미래에 한 걸음 더 다가가고 있습니다.
AI에 대해 궁금하신가요? 최신 업데이트와 통찰력을 보려면 저희 커뮤니티에 가입하시고 GitHub 저장소를 확인해 보십시오. 또한 자율 주행 자동차 및 농업과 같은 산업에서 컴퓨터 비전이 어떻게 사용될 수 있는지 탐색해 볼 수 있습니다!






