캡슐 네트워크(CapsNet)에 대해 알아보세요: 공간 계층 구조와 특징 관계에 탁월한 획기적인 신경망 아키텍처입니다.
캡슐 네트워크는 흔히 캡스넷이라고 줄여서 부르는데, 기존의 컨볼루션 신경망(CNN)의 대안으로 설계된 혁신적인 유형의 신경망(NN) 아키텍처입니다. AI 연구원 제프리 힌튼과 그의 팀이 처음 소개한 캡스넷은 CNN이 이미지 내의 공간 계층 구조와 특징 간의 관계를 처리하는 방식의 근본적인 한계를 해결하는 것을 목표로 합니다. CNN은 특징 추출에 탁월하지만 풀링 레이어를 사용하면 정확한 공간 정보가 손실될 수 있습니다. CapsNets는 단일 스칼라 값 대신 벡터를 출력하는 뉴런 그룹인 "캡슐"을 사용하는 다른 접근 방식을 제안합니다. 이러한 벡터는 포즈(위치, 방향, 스케일), 특징의 존재 확률과 같은 속성을 포함하여 감지된 특징에 대한 보다 풍부한 정보를 인코딩합니다. 이러한 구조를 통해 CapsNet은 부분과 전체의 관계를 더 잘 모델링하고 공간 인식을 유지하여 컴퓨터 비전(CV) 작업의 시점 변화에 대한 견고성을 잠재적으로 향상시킬 수 있습니다.
캡스넷의 핵심 요소는 "캡슐"입니다. 표준 뉴런과 달리 각 캡슐은 입력 영역 내에서 특정 개체를 감지하고 벡터를 출력합니다. 벡터의 크기(길이)는 감지된 엔티티가 존재할 확률을 나타내며, 방향은 정확한 포즈나 텍스처 디테일과 같은 엔티티의 인스턴스화 매개변수를 나타냅니다. 이 벡터 기반 출력은 다른 많은 딥러닝(DL) 모델에서 일반적으로 사용되는 스칼라 활성화와 뚜렷한 대조를 이룹니다.
하위 계층의 캡슐은 변환 행렬을 사용하여 상위 계층의 캡슐 출력에 대한 예측을 생성합니다. "합의에 의한 라우팅"이라는 중요한 메커니즘이 이러한 레이어 간의 연결을 동적으로 결정합니다. 여러 하위 수준 캡슐의 예측이 상위 수준 피처의 존재와 자세에 대해 일치(합의)하면 해당 상위 수준 캡슐이 활성화됩니다. 이 동적 라우팅 프로세스를 통해 네트워크는 부분을 인식하고 전체로 조립되는 방식을 이해하여 공간 계층을 효과적으로 보존할 수 있습니다. 기본 아이디어는"캡슐 간 동적 라우팅" 문서에 자세히 설명되어 있습니다. 이 접근 방식은 객체 구성에 대한 미묘한 이해가 필요한 작업에 도움이 되며, 잠재적으로 광범위한 데이터 증강의 필요성을 줄이면서 성능을 향상시킬 수 있습니다.
캡스넷은 특히 공간 데이터를 처리하고 특징을 표현하는 데 있어 널리 사용되는 CNN과 다른 패러다임을 제공합니다:
캡스넷은 기존 신경망 아키텍처에 비해 몇 가지 잠재적인 이점을 제공합니다:
캡스넷은 여전히 주로 활발히 연구 중인 영역이며 다음과 같은 기존 모델보다 덜 일반적으로 배포되지만 Ultralytics YOLO 또는 YOLO11와 같은 기존 모델에 비해 널리 배포되지는 않았지만 여러 영역에서 가능성을 입증했습니다:
특히 복잡한 장면에서 물체 감지를 개선하고, 로봇 공학에서 장면 이해를 향상시키며, 자율 주행 차량을 위한 보다 강력한 인식 시스템에 기여하는 등의 잠재적인 응용 분야가 있습니다. 계산 요구 사항이 여전히 과제로 남아 있지만, 현재 진행 중인 연구는 광범위한 머신 러닝(ML) 애플리케이션을 위해 CapsNet 효율성을 최적화하고 다음과 같은 프레임워크에 통합하는 것을 목표로 하고 있습니다. PyTorch 또는 TensorFlow. 다양한 객체 감지 모델 간의 비교를 통해 향후 환경에서 CapsNet이 적합한 위치를 파악할 수 있습니다.