カプセルネットワーク(CapsNets)と、それがCNNの限界をどのように解決するかを探ります。動的ルーティング、空間階層、そしてCapsNetsとYOLO26の比較について学びましょう。
カプセルネットワーク(CapsNetsと略されることが多い)は、ディープラーニング分野における高度なアーキテクチャであり、従来のニューラルネットワークに見られる特定の制限を克服するために設計されています。Geoffrey Hintonとそのチームによって導入されたCapsNetsは、標準的なモデルよりも人間の脳の生物学的ニューラル組織をより密接に模倣しようとします。特徴のdetectには優れているものの、ダウンサンプリングによって空間関係を失いがちな一般的な畳み込みニューラルネットワーク(CNN)とは異なり、カプセルネットワークはニューロンを「カプセル」と呼ばれるグループに編成します。これらのカプセルは、オブジェクトの存在確率だけでなく、向き、サイズ、テクスチャなどの特定のプロパティもエンコードし、視覚データ内の階層的な空間関係を効果的に保持します。
CapsNetの革新性を理解するには、標準的なコンピュータービジョンモデルがどのように動作するかを見ると役立ちます。従来のCNNは、計算負荷を軽減し、並進不変性を実現するために、特徴抽出層とそれに続くプーリング層、特に最大プーリングを使用します。これは、CNNが画像内のどこに猫がいても「猫」を識別できることを意味します。
しかし、このプロセスはしばしば正確な位置データを破棄し、「ピカソ問題」につながります。CNNは、口が額にあっても、必要な特徴がすべて存在するという理由だけで顔を正しくclassifyする可能性があります。CapsNetは、プーリング層を削除し、オブジェクトの空間階層を尊重するプロセスに置き換えることで、この問題に対処します。
このアーキテクチャのコアとなる構成要素はカプセルであり、スカラー値ではなくベクトルを出力する入れ子になったニューロンの集合です。ベクトル数学において、ベクトルは大きさと方向の両方を持っています。CapsNetでは:
下位層のカプセル(エッジのような単純な形状をdetectする)は、上位層のカプセル(目やタイヤのような複雑なオブジェクトをdetectする)の出力を予測します。この通信は、「動的ルーティング」または「合意によるルーティング」と呼ばれるアルゴリズムによって管理されます。下位レベルのカプセルの予測が上位レベルのカプセルの状態と一致する場合、それらの間の接続が強化されます。これにより、ネットワークは、CNNに回転とスケールについて教えるために通常必要とされる大規模なデータ拡張を必要とせずに、異なる3D視点からオブジェクトを認識できます。
両アーキテクチャはコンピュータビジョン(CV)の基盤となるが、 視覚データの処理と表現方法において差異がある:
CapsNetsはYOLO26のような最適化モデルよりも計算コストが高い場合が多いが、 特定の領域では明確な利点を提供する:
カプセルネットワークは主に分類アーキテクチャである。理論的な頑健性を提供する一方で、現代の産業アプリケーションではリアルタイム性能のために高速なCNNやトランスフォーマーが好まれることが多い。しかし、MNISTなどのカプセルネットワークに用いられる分類ベンチマークを理解することは有用である。
以下の例は、現代的なモデルを訓練する方法を示しています。
YOLO MNIST を用いて
ultralytics パッケージ。これはカプセルネットワークの検証に使用される主要なベンチマークタスクと並行する。
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
カプセルネットワークの原理は、AIの安全性および解釈可能性に関する研究に引き続き影響を与えている。部分と全体の関係を明示的にモデル化することで、カプセルは深層ニューラルネットワークの「ブラックボックス」的性質に対する「ガラス箱」的代替案を提供し、意思決定の透明性を高める。今後の発展では、カプセルの空間的頑健性と、YOLO11などのアーキテクチャの推論速度を組み合わせることが検討されている。 YOLO11 や新世代のYOLO26といったアーキテクチャの推論速度を組み合わせ、3D物体検出やロボティクス分野での性能向上を図る。研究者らはさらに、合意アルゴリズムの計算コスト削減を目的として、EMルーティングを用いたマトリックスカプセルの研究も進めている。
データセットを管理し、モデルを効率的にトレーニングしようとしている開発者にとって、Ultralytics Platformは、データのアノテーション、クラウドでのトレーニング、そしてCNNの速度と複雑なビジョンタスクに必要な精度を両立させるモデルのデプロイのための統合環境を提供します。

未来の機械学習で、新たな一歩を踏み出しましょう。