용어집

비전 맘바

트랜스포머의 선형 복잡도 대안인 비전 맘바를 살펴보세요. 상태 공간 모델(SSM)이 고해상도 컴퓨터 비전의 효율성을 어떻게 향상시키는지 알아보세요.

비전 맘바는 컴퓨터 비전을 위한 딥러닝 아키텍처에서 중요한 전환점을 나타내며, 트랜스포머에서 발견되는 어텐션 기반 메커니즘의 지배에서 벗어나고 있습니다. 이는 원래 자연어 처리에서 효율적인 시퀀스 모델링을 위해 설계된 맘바 아키텍처를 시각적 작업에 특화하여 적용한 것입니다. 비전 맘바는 상태 공간 모델(SSM)을 활용하여 기존 자기주의 주의 층의 이차적 복잡도에 대한 선형적 복잡도 대안을 제공합니다. 이를 통해 고해상도 이미지를 보다 효율적으로 처리할 수 있어, 계산 자원이 제한적이거나 비전 트랜스포머(ViT)의 전형적인 막대한 메모리 사용량 없이 시각 데이터의 장거리 의존성을 포착해야 하는 애플리케이션에 특히 유용합니다.

비전 맘바의 작동 방식

비전 맘바의 핵심은 데이터를 선택적으로 스캔하는 개념입니다. 기존의 컨볼루션 신경망(CNN)은 로컬 슬라이딩 윈도우를 사용하여 이미지를 처리하는데, 이는 텍스처와 에지 감지에는 탁월하지만 전역적 컨텍스트 처리에는 어려움을 겪습니다. 반면 트랜스포머는 전역적 어텐션을 사용하여 모든 픽셀(또는 패치)을 다른 모든 픽셀과 연관시킵니다. 이는 탁월한 컨텍스트를 제공하지만, 이미지 해상도가 증가함에 따라 계산 비용이 크게 증가합니다. 비전 맘바는 이미지를 시퀀스로 평탄화하고 선택적 상태 공간을 활용해 처리함으로써 이 간극을 메웁니다. 이를 통해 모델은 시각 정보를 고정 크기 상태로 압축할 수 있으며, 이미지 시퀀스 내 먼 거리에서도 관련 세부 정보를 유지하는 동시에 불필요한 노이즈를 제거합니다.

이 아키텍처는 일반적으로 양방향 스캐닝 메커니즘을 포함합니다. 이미지는 2차원 구조이며 텍스트처럼 본질적으로 순차적이지 않기 때문에, Vision Mamba는 스캐닝 순서에 관계없이 공간적 관계를 이해할 수 있도록 이미지 패치를 전진 및 후진 방향(때로는 다양한 경로)으로 스캔합니다. 이러한 접근 방식은 모델이 트랜스포머와 유사한 전역 수용 야역을 달성할 수 있게 하지만, 더 빠른 추론 속도와 낮은 메모리 사용량을 제공하여 종종 벤치마크에서 최첨단 결과와 경쟁합니다. ImageNet과 유사한 글로벌 수용 영역을 달성할 수 있게 합니다.

실제 애플리케이션

비전 맘바의 효율성은 자원 제약 환경과 고해상도 작업에 매우 적합합니다.

의료 영상 분석: 방사선학과 같은 분야에서는 고해상도 MRI 또는 CT 스캔을 분석할 때 대형 영상 내에서 공간적으로 멀리 떨어진 미세한 이상 징후를 탐지해야 합니다. Vision Mamba는 이러한 대형 의료 영상 분석 파일을 표준 트랜스포머가 흔히 겪는 메모리 병목 현상 없이 효과적으로 처리하여, 의사가 종양이나 골절을 높은 정밀도로 식별할 수 있도록 지원합니다.
에지 디바이스에서의 자율 주행: 자율주행 차량과 드론은 실시간 영상 처리 위해 에지 컴퓨팅에 의존합니다. Vision Mamba의 선형 확장성은 이러한 시스템이 물체 탐지 및 의미적 분할을 위한 고프레임률 영상 입력을 무거운 트랜스포머 모델보다 효율적으로 처리하도록 하여 안전이 중요한 의사결정에 더 빠른 반응 시간을 보장합니다.

비전 맘바 대 비전 트랜스포머(ViT)

두 아키텍처 모두 글로벌 컨텍스트를 포착하는 것을 목표로 하지만, 작동 방식에서 근본적으로 다릅니다.

비전 트랜스포머(ViT): 모든 이미지 패치 쌍 간의 관계를 계산하는 어텐션 메커니즘에 의존합니다. 이는 이차적 복잡도($O(N^2)$)를 초래하며, 이미지 크기를 두 배로 늘릴 경우 계산 비용이 네 배로 증가함을 의미합니다.
비전 맘바: 상태 공간 모델(SSM)을 활용하여 시각 토큰을 선형적으로($O(N)$) 처리합니다. 새로운 패치를 인식할 때마다 업데이트되는 실행 상태를 유지함으로써, 비슷한 정확도를 유지하면서도 더 높은 해상도에서 훨씬 우수한 확장성을 제공합니다.

예시: 효율적인 추론 워크플로

비전 맘바는 특정 아키텍처이지만, 그 효율성 원칙은 다음과 같은 현대 실시간 모델의 목표와 부합합니다. Ultralytics YOLO26최적화된 시각 작업을 원하는 사용자는 Ultralytics 플랫폼 훈련 및 배치를 위한 것입니다. 아래는 ultralytics 추론을 실행하는 패키지로, 고도로 최적화된 비전 모델의 사용 편의성을 보여줍니다.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

주요 이점 및 향후 전망

컴퓨터 비전에 맘바 기반 아키텍처가 도입되면서 하드웨어에 더 민감한 인공지능으로의 전환이 가속화되고 있다. 글로벌 어텐션과 관련된 계산 오버헤드를 줄임으로써 연구자들은 소형 기기에서도 고급 인공지능 에이전트를 배포할 수 있는 길을 열고 있다.

최근 연구(예: VMamba 논문 및 효율적인 딥러닝 발전)는 비디오 이해부터 3D 객체 탐지에 이르는 다양한 작업에서 이러한 모델이 기존 백본을 대체할 잠재력을 부각시킵니다. 연구계가 스캐닝 전략과 컨볼루션 레이어 통합을 지속적으로 개선함에 따라 Vision Mamba는 CNN 및 트랜스포머와 함께 딥러닝 툴박스의 표준 구성 요소가 될 전망입니다.

비전 맘바

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

비전 맘바의 작동 방식

실제 애플리케이션

비전 맘바 대 비전 트랜스포머(ViT)

예시: 효율적인 추론 워크플로

주요 이점 및 향후 전망

이 카테고리에서 더 읽어보기

작은 mAP 모델 mAP 향상 방법: 빠른 가이드

컴퓨터 비전으로 생물다양성 감시 재정의하기

엣지와 클라우드에서 YOLO26을 효율적으로 배포하기 위한 5가지 핵심 팁

Ultralytics 커뮤니티 가입