Yolo 비전 선전
선전
지금 참여하기
용어집

캡슐 네트워크 (CapsNet)

Explore Capsule Networks (CapsNets) and how they preserve spatial hierarchies to solve the "Picasso problem" in AI. Learn about dynamic routing and vector neurons.

캡슐 네트워크(Capsule Networks, 흔히 CapsNets로 약칭)는 딥 러닝 분야에서 전통적인 신경망의 특정 한계를 극복하기 위해 설계된 진보된 아키텍처입니다. 제프리 힌턴(Geoffrey Hinton)과 그의 팀이 제안한 캡슐 네트워크는 기존 모델보다 인간의 뇌가 지닌 생물학적 신경 조직을 더 가깝게 모방하려 시도합니다. 특징 탐지에 탁월하지만 다운샘플링으로 인해 공간적 관계를 종종 상실하는 전형적인 컨볼루션 신경망(CNN)과 달리, 캡슐 네트워크는 뉴런을 "캡슐"이라 불리는 그룹으로 조직합니다. 이러한 캡슐은 단순히 객체의 존재 확률뿐만 아니라 방향, 크기, 질감과 같은 특정 속성도 인코딩하여 시각 데이터 내의 계층적 공간적 관계를 효과적으로 보존합니다.

전통적 CNN의 한계

CapsNets의 혁신을 이해하려면 표준 컴퓨터 비전 모델의 작동 방식을 살펴보는 것이 도움이 됩니다. 기존 CNN은 특징 추출 레이어를 사용한 후 풀링 레이어(특히 최대 풀링)를 통해 계산 부하를 줄이고 변환 불변성을 달성합니다. 이는 CNN이 이미지의 어느 위치에 있든 "고양이"를 식별할 수 있음을 의미합니다.

그러나 이 과정은 종종 정확한 위치 데이터를 버리는데, 이는 "피카소 문제"를 초래한다: CNN은 입이 이마에 위치하더라도 필요한 특징들이 모두 존재한다는 이유만으로 classify 정확히 classify 수 있다. 캡스넷(CapsNets)은 풀링 레이어를 제거하고 객체의 공간적 계층 구조를 존중하는 과정으로 대체함으로써 이 문제를 해결한다.

캡슐 네트워크의 작동 방식

이 아키텍처의 핵심 구성 요소는 캡슐(capsule)로, 스칼라 값이 아닌 벡터를 출력하는 중첩된 신경망 집합입니다. 벡터 수학에서 벡터는 크기와 방향을 모두 가집니다. 캡슐망(CapsNet)에서는:

  • 크기(길이): 현재 입력에 특정 개체가 존재할 확률을 나타냅니다.
  • 방향(오리엔테이션): 객체의 자세 추정, 크기, 회전과 같은 인스턴스화 매개변수를 인코딩합니다.

하위 계층의 캡슐(가장자리 같은 단순한 형태를 감지)은 상위 계층의 캡슐(눈이나 타이어 같은 복잡한 물체를 감지)의 출력을 예측합니다. 이 통신은 "동적 라우팅" 또는 "합의에 의한 라우팅"이라는 알고리즘으로 관리됩니다. 하위 캡슐의 예측이 상위 캡슐의 상태와 일치할 경우, 양자간 연결이 강화됩니다. 이를 통해 네트워크는 회전과 크기 변환을 학습시키기 위해 일반적으로 필요한 대규모 데이터 증강 없이도 다양한 3D 시점에서 물체를 인식할 수 있습니다.

주요 차이점: 캡스넷(CapsNets) 대 컨볼루션 신경망(CNNs)

두 아키텍처 모두 컴퓨터 비전(CV)의 기초가 되지만, 시각 데이터를 처리하고 표현하는 방식에서 차이가 있습니다:

  • 스칼라 대 벡터: CNN 뉴런은 특징 존재 여부를 나타내기 위해 스칼라 출력을 사용한다. CapsNets는 존재 여부(길이)와 자세 매개변수(방향)를 인코딩하기 위해 벡터를 사용한다.
  • 라우팅 대 풀링: CNN은 풀링을 통해 데이터를 다운샘플링하여 위치 정보를 상실하는 경우가 많습니다. 캡스넷(CapsNets)은 동적 라우팅을 사용하여 공간 데이터를 보존하므로, 정밀한 객체 추적이 필요한 작업에 매우 효과적입니다.
  • 데이터 효율성: 캡슐은 3차원 시점과 아핀 변환을 암묵적으로 이해하므로, CNN과 비교해 적은 훈련 데이터로도 일반화할 수 있습니다. CNN은 물체의 모든 가능한 회전을 학습하기 위해 방대한 예제가 필요할 수 있습니다.

실제 애플리케이션

캡스넷은 YOLO26과 같은 최적화된 모델보다 계산 비용이 더 많이 드는 경우가 많지만, 특화된 영역에서는 다음과 같은 뚜렷한 장점을 제공합니다:

  1. 의료 영상 분석: 의료 분야에서 이상 병변의 정확한 방향과 형태는 매우 중요합니다. 연구자들은 캡슐 네트워크(CapsNets)를 뇌종양 분할에 적용했는데, 이 모델은 표준 CNN이 평활화할 수 있는 미묘한 공간적 계층 구조를 기반으로 종양을 주변 조직과 구분해야 합니다. 의료 영상 분야의 캡슐 네트워크 관련 연구를 살펴볼 수 있습니다.
  2. 중첩된 숫자 인식: CapsNets는 특히 숫자가 중첩된 상황에서 MNIST 최첨단 성능을 달성했습니다. 네트워크가 각 숫자의 "자세"를 추적하기 때문에, 두 개의 중첩된 숫자(예: '5' 위에 있는 '3')를 단일 혼동된 특징 맵으로 병합하지 않고 별개의 객체로 분리할 수 있습니다.

실용적 맥락과 구현

캡슐 네트워크는 주로 분류 아키텍처입니다. 이론적 견고성을 제공하지만, 현대 산업 응용 분야에서는 실시간 성능을 위해 고속 CNN이나 트랜스포머를 선호하는 경우가 많습니다. 그러나 MNIST 같은 캡슐 네트워크에 사용되는 분류 벤치마크를 이해하는 것은 유용합니다.

다음 예제는 현대적인 모델을 훈련하는 방법을 보여줍니다. YOLO 모델 MNIST 을 사용하여 ultralytics 패키지. 이는 캡슐 네트워크를 검증하는 데 사용되는 주요 벤치마크 작업과 유사합니다.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

캡슐과 비전 AI의 미래

캡슐 네트워크의 원리는 AI 안전성과 해석 가능성 연구에 지속적으로 영향을 미치고 있습니다. 부분-전체 관계를 명시적으로 모델링함으로써 캡슐은 딥 뉴럴 네트워크의 '블랙박스' 특성에 대한 '글라스박스' 대안을 제공하여 의사결정을 보다 설명 가능하게 만듭니다. 향후 발전 방향은 캡슐의 공간적 견고성과 YOLO111과 같은 아키텍처의 추론 속도를 결합하는 데 초점을 맞출 것으로 보입니다. YOLO11 이나 최신 YOLO26과 같은 아키텍처의 추론 속도를 결합하여 3D 객체 탐지 및 로봇 공학 분야의 성능 향상을 도모할 것으로 보입니다. 연구자들은 또한 합의 알고리즘의 계산 비용을 더욱 줄이기 위해 EM 라우팅을 적용한 매트릭스 캡슐을 탐구하고 있습니다.

데이터셋을 관리하고 모델을 효율적으로 훈련하려는 개발자를 위해 Ultralytics 데이터 주석 작업, 클라우드 기반 훈련, CNN의 속도와 복잡한 비전 작업에 필요한 정확도를 균형 있게 조화시킨 모델 배포를 위한 통합 환경을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기