Yolo 비전 선전
선전
지금 참여하기
용어집

캡슐 네트워크 (CapsNet)

캡슐 네트워크 (CapsNet)를 알아보세요: 공간 계층 및 특징 관계에서 뛰어난 획기적인 신경망 아키텍처입니다.

캡슐 네트워크(CapsNets)는 특정 문제를 해결하기 위해 설계된 딥러닝(DL) 분야의 정교한 진화를 나타냅니다. 특정 한계를 해결하기 위해 설계된 컨볼루션 신경망(CNN). 저명한 연구자인 제프리 힌튼과 그의 동료들이 처음 소개한 이 아키텍처는 이 아키텍처는 뉴런을 "캡슐"이라는 그룹으로 구성합니다. 표준 뉴런과 달리 단일 스칼라 활성화 값을 출력하는 표준 뉴런과 달리, 캡슐은 벡터를 출력합니다. 이 벡터 방향과 길이 덕분에 네트워크가 물체의 정확한 위치, 크기, 방향, 질감 등 물체에 대한 더 풍부한 정보를 인코딩할 수 있게 해줍니다. 이 기능을 통해 모델은 피처 간의 계층적 관계를 더 잘 이해할 수 있으며, 기본적으로 다음과 같은 기능을 수행할 수 있습니다. 시각적 장면을 해체하는 '역 그래픽'을 수행합니다.

핵심 메커니즘 이해

캡스넷의 가장 큰 특징은 물체의 여러 부분 사이의 공간적 관계를 보존하는 능력입니다. 공간 관계를 보존하는 능력입니다. 표준 표준 컴퓨터 비전(CV) 워크플로우에서 레이어 은 종종 풀링 작업을 사용하여 차원을 줄이는데, 이는 일반적으로 정밀한 공간 데이터를 삭제하여 불변성. 하지만 캡스넷은 '동등성'을 목표로 합니다. 즉, 이미지에서 물체가 움직이거나 회전하면 이미지에서 물체가 움직이거나 회전하면 캡슐의 벡터 표현이 인식할 수 없게 되는 것이 아니라 그에 비례하여 변경됩니다.

이는 "동적 라우팅" 또는 "합의에 의한 라우팅"이라는 프로세스를 통해 이루어집니다. 단순히 다음 계층의 모든 뉴런에 단순히 다음 계층의 모든 뉴런에 신호를 전달하는 대신, 하위 수준의 캡슐은 자신의 출력을 상위 수준의 예측에 '동의'하는 캡슐로 출력을 보냅니다. 예를 들어, 코를 감지한 캡슐은 공간적 위치가 일치하면 얼굴 캡슐에 강력하게 신호를 보내어 공간 방향이 정렬되면 특징 추출 프로세스의 특징 추출 프로세스의 구조적 이해를 강화합니다. 이 개념은 에 관한 연구 논문에 자세히 설명되어 있습니다. 캡슐 간 동적 라우팅.

캡스넷과 CNN의 차별화

두 아키텍처 모두 머신 러닝(ML)에서 중추적인 역할을 하지만 머신 러닝(ML)의 핵심이지만, 시각적 데이터를 처리하는 방식에서는 시각적 데이터를 처리하는 방식에서 크게 다릅니다:

  • 스칼라 대 벡터 출력: CNN 뉴런은 특징의 존재를 나타내는 스칼라 값을 제공합니다. 캡스넷은 벡터 출력을 사용하여 엔티티의 존재와 그 속성(포즈, 변형, 색조)을 표현합니다.
  • 풀링 대 라우팅: CNN은 풀링 레이어 (예: 최대 풀링과 같은 풀링 레이어를 사용하여 변환 불변성을 달성하지만, 위치 세부 정보가 손실되는 경우가 많습니다. 캡스넷은 동적 라우팅을 사용하여 공간 계층 구조를 보존하여 다음과 같은 작업에 더 효과적일 수 있습니다. 포즈 추정.
  • 데이터 효율성: 캡스넷은 내부적으로 뷰포인트 변형을 인코딩하기 때문에 기존 방식에 비해 일반화에 필요한 기존 모델에 비해 일반화하기 위한 훈련 데이터가 모델에 비해 일반화에 필요한 훈련 데이터가 적을 수 있습니다. 회전이나 아핀 변환을 학습하기 위한 변환을 학습하기 위해 광범위한 데이터 보강이 필요한 경우가 많습니다.

실제 애플리케이션

캡스넷은 계산 집약적이며 다음과 같은 최적화된 아키텍처보다 덜 널리 채택되었지만 YOLO11와 같은 최적화된 아키텍처에 비해 컴퓨팅 집약적이긴 하지만, 특정 고난도 도메인에서 가능성을 보여주었습니다:

  1. 의료 이미지 분석: 공간 계층을 처리할 수 있는 기능 덕분에 CapsNets는 다음과 같은 경우에 유용합니다. 의료 이미지 분석에 유용합니다. 예를 들어 연구자들은 이를 다음과 같은 분야에 적용했습니다. 뇌종양 세분화: 종양의 정확한 모양과 방향을 주변 조직과 구별하는 것은 종양의 정확한 모양과 방향을 주변 조직과 구별하는 것이 정확한 진단을 위해 매우 중요합니다.
  2. 필기 숫자 인식: CapsNets는 특히 다음과 같은 시나리오에서 MNIST 데이터 세트, 특히 표준 숫자가 겹치는 시나리오에서 특히 표준 이미지 분류 모델이 어려움을 겪을 수 있는 이미지 분류 모델이 특징을 파악하는 데 특징을 파악하는 데 어려움을 겪을 수 있습니다.

실제 구현

캡스넷은 이론적인 이점을 제공하지만, 최신 업계 표준은 종종 고도로 최적화된 CNN 또는 트랜스포머 기반 모델을 선호합니다. 하지만 분류 작업의 주요 벤치마크인 CapsNets의 주요 벤치마크인 분류 작업을 ultralytics 라이브러리를 추가합니다. 다음 예는 YOLO11 분류 모델을 계층적 특징 인식을 테스트하기 위한 일반적인 놀이터인 MNIST 데이터 세트에 대해 훈련하는 예제입니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

향후 전망

캡슐 네트워크에 대한 연구는 계속해서 다음과 같은 개발에 영향을 미치고 있습니다. AI 안전성 및 해석 가능성. 부분과 전체의 관계를 명시적으로 모델링함으로써 부분과 전체의 관계를 명시적으로 모델링함으로써, 일부 딥 네트워크의 '블랙박스' 특성인 보다 설명 가능한 AI로 나아가는 길을 제공합니다. 향후의 발전은 이러한 개념을 다음과 같은 분야에 통합하는 데 초점을 맞출 수 있습니다. 3D 물체 감지 및 라우팅 알고리즘의 계산 비용을 줄이고, 잠재적으로 다음과 같은 모델의 효율성과 YOLO26과 같은 모델의 효율성을 캡슐에 대한 강력한 공간 이해와 결합할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기