Capsule Networks (CapsNet)

Capsule Networks(CapsNets)를 탐구하고 이것이 CNN의 한계를 어떻게 해결하는지 알아보십시오. 동적 라우팅, 공간 계층 구조를 배우고 CapsNets를 YOLO26과 비교해 보십시오.

캡슐 네트워크(Capsule Networks, 흔히 CapsNet으로 약칭)는 기존 신경망의 특정 한계를 극복하기 위해 설계된 딥러닝 분야의 고급 아키텍처입니다. Geoffrey Hinton과 그의 팀이 도입한 CapsNet은 표준 모델보다 인간 뇌의 생물학적 신경 조직을 더 밀접하게 모방하려 시도합니다. 특징 검출에는 뛰어나지만 다운샘플링(downsampling)으로 인해 공간적 관계를 종종 잃어버리는 일반적인 합성곱 신경망(CNN)과 달리, 캡슐 네트워크는 "캡슐(capsules)"이라 불리는 그룹으로 뉴런을 구성합니다. 이 캡슐들은 객체의 존재 확률뿐만 아니라 방향, 크기, 질감과 같은 구체적인 속성까지 인코딩하여 시각 데이터 내의 계층적 공간 관계를 효과적으로 보존합니다.

Link to this section기존 CNN의 한계#

CapsNet의 혁신을 이해하려면 표준 컴퓨터 비전 모델이 어떻게 작동하는지 살펴보는 것이 도움이 됩니다. 기존 CNN은 특징 추출(feature extraction) 계층과 그 뒤를 잇는 풀링(pooling) 계층, 특히 맥스 풀링(max pooling)을 사용하여 연산 부하를 줄이고 이동 불변성(translational invariance)을 달성합니다. 이는 CNN이 이미지 내 어디에 있든 "고양이"를 식별할 수 있음을 의미합니다.

하지만 이 과정은 종종 정확한 위치 데이터를 버리게 되어 "피카소 문제"를 초래합니다. 즉, CNN은 입이 이마에 있어도 모든 필요한 특징이 존재하기만 하면 얼굴로 올바르게 분류할 수 있습니다. CapsNet은 풀링 계층을 제거하고 이를 객체의 공간 계층 구조(spatial hierarchies)를 존중하는 프로세스로 대체함으로써 이 문제를 해결합니다.

Link to this section캡슐 네트워크의 작동 방식#

이 아키텍처의 핵심 구성 요소는 캡슐로, 스칼라 값이 아닌 벡터를 출력하는 뉴런의 중첩 세트입니다. 벡터 수학(vector mathematics)에서 벡터는 크기와 방향을 모두 가집니다. CapsNet에서:

크기(길이): 현재 입력에 특정 엔티티가 존재할 확률을 나타냅니다.
방향(방향성): 객체의 자세 추정(pose estimation), 크기 및 회전과 같은 인스턴스화 매개변수를 인코딩합니다.

하위 계층의 캡슐(가장자리와 같은 단순한 모양을 감지)은 상위 계층의 캡슐(눈이나 타이어와 같은 복잡한 객체를 감지)의 출력을 예측합니다. 이러한 통신은 "동적 라우팅(dynamic routing)" 또는 "합의에 의한 라우팅(routing by agreement)"이라는 알고리즘에 의해 관리됩니다. 하위 수준 캡슐의 예측이 상위 수준 캡슐의 상태와 일치하면 둘 사이의 연결이 강화됩니다. 이를 통해 네트워크는 회전 및 크기에 대해 CNN을 학습시키는 데 일반적으로 필요한 막대한 데이터 증강(data augmentation) 없이도 다양한 3D 시점에서 객체를 인식할 수 있습니다.

Link to this section주요 차이점: CapsNet vs CNN#

두 아키텍처 모두 컴퓨터 비전(CV)의 기초이지만 시각 데이터를 처리하고 표현하는 방식에서 차이가 있습니다:

스칼라 vs. 벡터: CNN 뉴런은 스칼라 출력을 사용하여 특징 존재 여부를 나타냅니다. CapsNet은 벡터를 사용하여 존재 여부(길이)와 자세 매개변수(방향)를 인코딩합니다.
라우팅 vs. 풀링: CNN은 데이터를 다운샘플링하기 위해 풀링을 사용하여 위치 세부 정보를 잃는 경우가 많습니다. CapsNet은 동적 라우팅을 사용하여 공간 데이터를 보존함으로써 정확한 객체 추적(object tracking)이 필요한 작업에 매우 효과적입니다.
데이터 효율성: 캡슐은 3D 시점과 아핀 변환(affine transformations)을 암묵적으로 이해하므로, 객체의 모든 가능한 회전을 학습하기 위해 방대한 예제가 필요할 수 있는 CNN에 비해 적은 학습 데이터(training data)로도 일반화할 수 있는 경우가 많습니다.

Link to this section실제 애플리케이션 사례#

CapsNet은 YOLO26과 같이 최적화된 모델보다 연산 비용이 더 많이 드는 경우가 많지만, 특수 분야에서는 뚜렷한 장점을 제공합니다:

의료 영상 분석: 의료 분야에서 이상 징후의 정확한 방향과 모양은 매우 중요합니다. 연구자들은 뇌 종양 분할(brain tumor segmentation)에 CapsNet을 적용했는데, 여기서 모델은 표준 CNN이 간과할 수 있는 미묘한 공간 계층 구조를 기반으로 종양을 주변 조직과 구별해야 합니다. 의료 영상의 캡슐 네트워크(Capsule Networks in Medical Imaging)에 관한 관련 연구를 살펴보실 수 있습니다.
중첩 숫자 인식: CapsNet은 MNIST 데이터셋에서 숫자가 겹치는 시나리오를 중심으로 최첨단 결과를 달성했습니다. 네트워크가 각 숫자의 "자세"를 추적하기 때문에 두 개의 겹치는 숫자(예: '5' 위에 있는 '3')를 하나의 혼동된 특징 맵으로 병합하지 않고 별개의 객체로 분리할 수 있습니다.

Link to this section실제 컨텍스트 및 구현#

캡슐 네트워크는 주로 분류 아키텍처입니다. 이론적인 견고함을 제공하지만, 현대 산업 애플리케이션은 실시간 성능을 위해 고속 CNN이나 Transformer를 선호하는 경우가 많습니다. 그러나 CapsNet에 사용되는 MNIST와 같은 분류 벤치마크를 이해하는 것은 유용합니다.

The following example demonstrates how to train a modern YOLO classification model on the MNIST dataset using the ultralytics package. This parallels the primary benchmark task used to validate Capsule Networks.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Link to this section캡슐과 비전 AI의 미래#

캡슐 네트워크의 원리는 AI 안전(AI safety) 및 해석 가능성 연구에 계속해서 영향을 미치고 있습니다. 부분과 전체의 관계를 명시적으로 모델링함으로써 캡슐은 딥 신경망의 "블랙박스" 특성에 대한 "글래스 박스(투명한 상자)" 대안을 제공하여 의사 결정을 더 설명 가능하게 만듭니다. 향후 개발 방향은 캡슐의 공간적 견고함과 YOLO11 또는 최신 YOLO26과 같은 아키텍처의 추론 속도를 결합하여 3D 객체 탐지(3D object detection) 및 로봇 공학 분야의 성능을 향상시키는 데 있습니다. 연구자들은 또한 합의 알고리즘의 연산 비용을 더욱 줄이기 위해 EM 라우팅을 사용하는 매트릭스 캡슐(Matrix Capsules with EM Routing)을 연구하고 있습니다.

데이터셋을 관리하고 모델을 효율적으로 학습시키려는 개발자를 위해 Ultralytics Platform은 데이터를 주석 달고, 클라우드에서 학습하며, CNN의 속도와 복잡한 비전 작업에 필요한 정확성 사이의 균형을 유지하는 모델을 배포할 수 있는 통합 환경을 제공합니다.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Capsule Networks (CapsNet)

Link to this section기존 CNN의 한계#

Link to this section캡슐 네트워크의 작동 방식#

Link to this section주요 차이점: CapsNet vs CNN#

Link to this section실제 애플리케이션 사례#

Link to this section실제 컨텍스트 및 구현#

Link to this section캡슐과 비전 AI의 미래#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!