カプセルネットワーク(CapsNets)とそのCNNの限界を解決する仕組みを探る。動的ルーティング、空間階層構造について学び、CapsNetsとYOLO26を比較する。
カプセルネットワーク(CapsNet)は、深層学習分野における先進的なアーキテクチャであり、従来のニューラルネットワークに見られる特定の限界を克服するよう設計されている。ジェフリー・ヒントンとそのチームによって導入されたカプセルネットワークは、標準モデルよりも人間の脳の生物学的神経組織をより忠実に模倣しようとするものである。 特徴検出に優れる一方、ダウンサンプリングにより空間的関係を喪失しがちな典型的な畳み込みニューラルネットワーク(CNN)とは異なり、カプセルネットワークはニューロンを「カプセル」と呼ばれるグループに組織化する。これらのカプセルは対象の存在確率だけでなく、向き・大きさ・質感といった特定の特性も符号化し、視覚データ内の階層的な空間的関係を効果的に保持する。
CapsNetsの革新性を理解するには、標準的なコンピュータビジョンモデルの動作を考察することが有用である。 従来のCNNは特徴抽出層を積み重ねた後、プーリング層(特に最大値プーリング)を用いて計算負荷を軽減し、並進不変性を実現する。これによりCNNは画像内の位置に関わらず「猫」を識別できる。
しかし、この処理では正確な位置情報が失われることが多く、「ピカソ問題」を引き起こす。つまり、口が額にあっても、必要な特徴がすべて揃っているという理由だけで、CNNがclassify 正しくclassify 。CapsNetsはこの問題を解決するため、プーリング層を排除し、物体の空間的階層構造を尊重する処理に置き換えている。
このアーキテクチャの中核となる構成要素はカプセルであり、これはスカラー値ではなくベクトルを出力する ネストされたニューロン群である。ベクトル数学において、ベクトルは 大きさと方向の両方を有する。CapsNetでは:
下位層のカプセル(エッジなどの単純形状を検出)は上位層のカプセル(目やタイヤなどの複雑な物体を検出)の出力を予測する。この通信は「動的ルーティング」または「合意によるルーティング」と呼ばれるアルゴリズムによって管理される。 下位カプセルの予測が上位カプセルの状態と一致する場合、両者の接続は強化される。これによりネットワークは、CNNに回転や縮尺を学習させるために通常必要とされる膨大なデータ拡張を必要とせず、異なる3D視点からの物体を認識できる。
両アーキテクチャはコンピュータビジョン(CV)の基盤となるが、 視覚データの処理と表現方法において差異がある:
CapsNetsはYOLO26のような最適化モデルよりも計算コストが高い場合が多いが、 特定の領域では明確な利点を提供する:
カプセルネットワークは主に分類アーキテクチャである。理論的な頑健性を提供する一方で、現代の産業アプリケーションではリアルタイム性能のために高速なCNNやトランスフォーマーが好まれることが多い。しかし、MNISTなどのカプセルネットワークに用いられる分類ベンチマークを理解することは有用である。
以下の例は、現代的なモデルを訓練する方法を示しています。
YOLO MNIST を用いて
ultralytics パッケージ。これはカプセルネットワークの検証に使用される主要なベンチマークタスクと並行する。
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
カプセルネットワークの原理は、AIの安全性および解釈可能性に関する研究に引き続き影響を与えている。部分と全体の関係を明示的にモデル化することで、カプセルは深層ニューラルネットワークの「ブラックボックス」的性質に対する「ガラス箱」的代替案を提供し、意思決定の透明性を高める。今後の発展では、カプセルの空間的頑健性と、YOLO11などのアーキテクチャの推論速度を組み合わせることが検討されている。 YOLO11 や新世代のYOLO26といったアーキテクチャの推論速度を組み合わせ、3D物体検出やロボティクス分野での性能向上を図る。研究者らはさらに、合意アルゴリズムの計算コスト削減を目的として、EMルーティングを用いたマトリックスカプセルの研究も進めている。
開発者がデータセットを管理しモデルを効率的に学習させるために、 Ultralytics データをアノテーションし、 クラウド上で学習させ、CNNの速度と複雑なビジョンタスクに必要な精度を両立させるモデルを展開する 統合環境を提供します。