캡슐 네트워크 (CapsNet)를 알아보세요: 공간 계층 및 특징 관계에서 뛰어난 획기적인 신경망 아키텍처입니다.
캡슐 네트워크(CapsNets)는 특정 문제를 해결하기 위해 설계된 딥러닝(DL) 분야의 정교한 진화를 나타냅니다. 특정 한계를 해결하기 위해 설계된 컨볼루션 신경망(CNN). 저명한 연구자인 제프리 힌튼과 그의 동료들이 처음 소개한 이 아키텍처는 이 아키텍처는 뉴런을 "캡슐"이라는 그룹으로 구성합니다. 표준 뉴런과 달리 단일 스칼라 활성화 값을 출력하는 표준 뉴런과 달리, 캡슐은 벡터를 출력합니다. 이 벡터 방향과 길이 덕분에 네트워크가 물체의 정확한 위치, 크기, 방향, 질감 등 물체에 대한 더 풍부한 정보를 인코딩할 수 있게 해줍니다. 이 기능을 통해 모델은 피처 간의 계층적 관계를 더 잘 이해할 수 있으며, 기본적으로 다음과 같은 기능을 수행할 수 있습니다. 시각적 장면을 해체하는 '역 그래픽'을 수행합니다.
캡스넷의 가장 큰 특징은 물체의 여러 부분 사이의 공간적 관계를 보존하는 능력입니다. 공간 관계를 보존하는 능력입니다. 표준 표준 컴퓨터 비전(CV) 워크플로우에서 레이어 은 종종 풀링 작업을 사용하여 차원을 줄이는데, 이는 일반적으로 정밀한 공간 데이터를 삭제하여 불변성. 하지만 캡스넷은 '동등성'을 목표로 합니다. 즉, 이미지에서 물체가 움직이거나 회전하면 이미지에서 물체가 움직이거나 회전하면 캡슐의 벡터 표현이 인식할 수 없게 되는 것이 아니라 그에 비례하여 변경됩니다.
이는 "동적 라우팅" 또는 "합의에 의한 라우팅"이라는 프로세스를 통해 이루어집니다. 단순히 다음 계층의 모든 뉴런에 단순히 다음 계층의 모든 뉴런에 신호를 전달하는 대신, 하위 수준의 캡슐은 자신의 출력을 상위 수준의 예측에 '동의'하는 캡슐로 출력을 보냅니다. 예를 들어, 코를 감지한 캡슐은 공간적 위치가 일치하면 얼굴 캡슐에 강력하게 신호를 보내어 공간 방향이 정렬되면 특징 추출 프로세스의 특징 추출 프로세스의 구조적 이해를 강화합니다. 이 개념은 에 관한 연구 논문에 자세히 설명되어 있습니다. 캡슐 간 동적 라우팅.
두 아키텍처 모두 머신 러닝(ML)에서 중추적인 역할을 하지만 머신 러닝(ML)의 핵심이지만, 시각적 데이터를 처리하는 방식에서는 시각적 데이터를 처리하는 방식에서 크게 다릅니다:
캡스넷은 계산 집약적이며 다음과 같은 최적화된 아키텍처보다 덜 널리 채택되었지만 YOLO11와 같은 최적화된 아키텍처에 비해 컴퓨팅 집약적이긴 하지만, 특정 고난도 도메인에서 가능성을 보여주었습니다:
캡스넷은 이론적인 이점을 제공하지만, 최신 업계 표준은 종종 고도로 최적화된 CNN 또는
트랜스포머 기반 모델을 선호합니다. 하지만 분류 작업의 주요 벤치마크인
CapsNets의 주요 벤치마크인 분류 작업을 ultralytics 라이브러리를 추가합니다. 다음 예는 YOLO11
분류 모델을 계층적 특징 인식을 테스트하기 위한 일반적인 놀이터인 MNIST 데이터 세트에 대해 훈련하는 예제입니다.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
캡슐 네트워크에 대한 연구는 계속해서 다음과 같은 개발에 영향을 미치고 있습니다. AI 안전성 및 해석 가능성. 부분과 전체의 관계를 명시적으로 모델링함으로써 부분과 전체의 관계를 명시적으로 모델링함으로써, 일부 딥 네트워크의 '블랙박스' 특성인 보다 설명 가능한 AI로 나아가는 길을 제공합니다. 향후의 발전은 이러한 개념을 다음과 같은 분야에 통합하는 데 초점을 맞출 수 있습니다. 3D 물체 감지 및 라우팅 알고리즘의 계산 비용을 줄이고, 잠재적으로 다음과 같은 모델의 효율성과 YOLO26과 같은 모델의 효율성을 캡슐에 대한 강력한 공간 이해와 결합할 수 있습니다.