용어집

캡슐 네트워크(CapsNet)

캡슐 네트워크(CapsNet)에 대해 알아보세요: 공간 계층 구조와 특징 관계에 탁월한 획기적인 신경망 아키텍처입니다.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

캡슐 네트워크는 흔히 캡스넷이라고 줄여서 부르는데, 기존의 컨볼루션 신경망(CNN)의 대안으로 설계된 혁신적인 유형의 신경망(NN) 아키텍처입니다. AI 연구원 제프리 힌튼과 그의 팀이 처음 소개한 캡스넷은 CNN이 이미지 내의 공간 계층 구조와 특징 간의 관계를 처리하는 방식의 근본적인 한계를 해결하는 것을 목표로 합니다. CNN은 특징 추출에 탁월하지만 풀링 레이어를 사용하면 정확한 공간 정보가 손실될 수 있습니다. CapsNets는 단일 스칼라 값 대신 벡터를 출력하는 뉴런 그룹인 "캡슐"을 사용하는 다른 접근 방식을 제안합니다. 이러한 벡터는 포즈(위치, 방향, 스케일), 특징의 존재 확률과 같은 속성을 포함하여 감지된 특징에 대한 보다 풍부한 정보를 인코딩합니다. 이러한 구조를 통해 CapsNet은 부분과 전체의 관계를 더 잘 모델링하고 공간 인식을 유지하여 컴퓨터 비전(CV) 작업의 시점 변화에 대한 견고성을 잠재적으로 향상시킬 수 있습니다.

핵심 개념

캡스넷의 핵심 요소는 "캡슐"입니다. 표준 뉴런과 달리 각 캡슐은 입력 영역 내에서 특정 개체를 감지하고 벡터를 출력합니다. 벡터의 크기(길이)는 감지된 엔티티가 존재할 확률을 나타내며, 방향은 정확한 포즈나 텍스처 디테일과 같은 엔티티의 인스턴스화 매개변수를 나타냅니다. 이 벡터 기반 출력은 다른 많은 딥러닝(DL) 모델에서 일반적으로 사용되는 스칼라 활성화와 뚜렷한 대조를 이룹니다.

하위 계층의 캡슐은 변환 행렬을 사용하여 상위 계층의 캡슐 출력에 대한 예측을 생성합니다. "합의에 의한 라우팅"이라는 중요한 메커니즘이 이러한 레이어 간의 연결을 동적으로 결정합니다. 여러 하위 수준 캡슐의 예측이 상위 수준 피처의 존재와 자세에 대해 일치(합의)하면 해당 상위 수준 캡슐이 활성화됩니다. 이 동적 라우팅 프로세스를 통해 네트워크는 부분을 인식하고 전체로 조립되는 방식을 이해하여 공간 계층을 효과적으로 보존할 수 있습니다. 기본 아이디어는"캡슐 간 동적 라우팅" 문서에 자세히 설명되어 있습니다. 이 접근 방식은 객체 구성에 대한 미묘한 이해가 필요한 작업에 도움이 되며, 잠재적으로 광범위한 데이터 증강의 필요성을 줄이면서 성능을 향상시킬 수 있습니다.

컨볼루션 신경망(CNN)과의 주요 차이점

캡스넷은 특히 공간 데이터를 처리하고 특징을 표현하는 데 있어 널리 사용되는 CNN과 다른 패러다임을 제공합니다:

  • 공간 계층 처리: CNN은 종종 풀링 레이어를 통해 공간 정보를 잃어버리는데, 이는 영역에 대한 특징의 존재를 요약하는 것입니다. 캡스넷은 특징 사이의 계층적 포즈 관계를 명시적으로 보존하도록 설계되어 본질적으로 물체의 구조를 더 잘 이해할 수 있습니다.
  • 특징 표현: CNN은 일반적으로 특징의 존재를 표현하기 위해 스칼라 활성화를 사용합니다. 캡스넷은 특징의 존재 여부와 특성(예: 포즈 및 변형)을 모두 인코딩하는 벡터 출력(캡슐)을 활용합니다.
  • 시점 동등성: 캡스넷은 시점 불변성을 학습하기 위해 많은 양의 학습 데이터가 필요한 반면, CNN은 시점이 바뀌면 표현이 예측 가능하게 변하는 동등성을 목표로 합니다.
  • 라우팅 메커니즘: CNN은 최대 풀링 또는 기타 정적 풀링 방법을 사용합니다. CapsNet은 캡슐 레이어 간 예측의 일관성에 따라 연결에 가중치를 부여하는 동적 합의 기반 라우팅을 사용합니다.

캡슐 네트워크의 장점

캡스넷은 기존 신경망 아키텍처에 비해 몇 가지 잠재적인 이점을 제공합니다:

  • 시점 견고성 향상: 훈련 중에 특정 관점을 보지 않고도 새로운 관점으로 더 잘 일반화할 수 있는 구조입니다.
  • 더 나은 부분과 전체 관계 모델링: 라우팅 메커니즘은 복잡한 이미지 인식 작업에서 중요한 부품이 어떻게 결합하여 물체를 형성하는지 캡스넷이 이해하는 데 도움이 됩니다.
  • 데이터 효율성: 특히 공간 관계에 민감한 작업의 경우 CNN에 비해 적은 데이터 세트로도 높은 정확도를 달성할 수 있습니다.
  • 겹치는 오브젝트 세분화: 한 영역 내에서 여러 개체와 그 포즈를 표현하는 기능은 개체가 상당히 겹치는 인스턴스 세분화와 같은 작업에 도움이 될 수 있습니다. 훈련 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 수행할 수 있습니다.

실제 애플리케이션

캡스넷은 여전히 주로 활발히 연구 중인 영역이며 다음과 같은 기존 모델보다 덜 일반적으로 배포되지만 Ultralytics YOLO 또는 YOLO11와 같은 기존 모델에 비해 널리 배포되지는 않았지만 여러 영역에서 가능성을 입증했습니다:

  1. 문자 인식: CapsNets는 손으로 쓴 숫자로 구성된 MNIST 데이터 세트에서 최첨단 결과를 달성하여 일부 벤치마크에서 기존 이미지 분류 방식을 능가하는 방향과 스타일의 변화를 효과적으로 처리하는 능력을 보여주었습니다.
  2. 의료 이미지 분석: 공간 구성을 이해하는 데 강점이 있어 의료 스캔을 분석하는 데 적합합니다. 예를 들어, 뇌종양의 정확한 모양과 위치를 파악하는 것이 중요한 뇌종양 세분화와 같은 작업에 CapsNet을 사용하는 연구가 진행되었습니다. 이는 광범위한 의료 이미지 분석 분야에 속합니다.

특히 복잡한 장면에서 물체 감지를 개선하고, 로봇 공학에서 장면 이해를 향상시키며, 자율 주행 차량을 위한 보다 강력한 인식 시스템에 기여하는 등의 잠재적인 응용 분야가 있습니다. 계산 요구 사항이 여전히 과제로 남아 있지만, 현재 진행 중인 연구는 광범위한 머신 러닝(ML) 애플리케이션을 위해 CapsNet 효율성을 최적화하고 다음과 같은 프레임워크에 통합하는 것을 목표로 하고 있습니다. PyTorch 또는 TensorFlow. 다양한 객체 감지 모델 간의 비교를 통해 향후 환경에서 CapsNet이 적합한 위치를 파악할 수 있습니다.

모두 보기