Yolo 深圳
深セン
今すぐ参加
用語集

Capsule Networks(CapsNet)

カプセルネットワーク(CapsNets)とそのCNNの限界を解決する仕組みを探る。動的ルーティング、空間階層構造について学び、CapsNetsとYOLO26を比較する。

カプセルネットワーク(CapsNet)は、深層学習分野における先進的なアーキテクチャであり、従来のニューラルネットワークに見られる特定の限界を克服するよう設計されている。ジェフリー・ヒントンとそのチームによって導入されたカプセルネットワークは、標準モデルよりも人間の脳の生物学的神経組織をより忠実に模倣しようとするものである。 特徴検出に優れる一方、ダウンサンプリングにより空間的関係を喪失しがちな典型的な畳み込みニューラルネットワーク(CNN)とは異なり、カプセルネットワークはニューロンを「カプセル」と呼ばれるグループに組織化する。これらのカプセルは対象の存在確率だけでなく、向き・大きさ・質感といった特定の特性も符号化し、視覚データ内の階層的な空間的関係を効果的に保持する。

従来型CNNの限界

CapsNetsの革新性を理解するには、標準的なコンピュータビジョンモデルの動作を考察することが有用である。 従来のCNNは特徴抽出層を積み重ねた後、プーリング層(特に最大値プーリング)を用いて計算負荷を軽減し、並進不変性を実現する。これによりCNNは画像内の位置に関わらず「猫」を識別できる。

しかし、この処理では正確な位置情報が失われることが多く、「ピカソ問題」を引き起こす。つまり、口が額にあっても、必要な特徴がすべて揃っているという理由だけで、CNNがclassify 正しくclassify 。CapsNetsはこの問題を解決するため、プーリング層を排除し、物体の空間的階層構造を尊重する処理に置き換えている。

カプセルネットワークの仕組み

このアーキテクチャの中核となる構成要素はカプセルであり、これはスカラー値ではなくベクトルを出力する ネストされたニューロン群である。ベクトル数学において、ベクトルは 大きさと方向の両方を有する。CapsNetでは:

  • 大きさ(長さ):現在の入力に特定のエンティティが存在する確率を表す。
  • 方向(オリエンテーション):オブジェクトの姿勢推定、スケール、回転などのインスタンス化パラメータを符号化します。

下位層のカプセル(エッジなどの単純形状を検出)は上位層のカプセル(目やタイヤなどの複雑な物体を検出)の出力を予測する。この通信は「動的ルーティング」または「合意によるルーティング」と呼ばれるアルゴリズムによって管理される。 下位カプセルの予測が上位カプセルの状態と一致する場合、両者の接続は強化される。これによりネットワークは、CNNに回転や縮尺を学習させるために通常必要とされる膨大なデータ拡張を必要とせず、異なる3D視点からの物体を認識できる。

主な相違点:CapsNetsとCNNs

両アーキテクチャはコンピュータビジョン(CV)の基盤となるが、 視覚データの処理と表現方法において差異がある:

  • スカラー対ベクトル:CNNニューロンは特徴の存在を示すためにスカラー出力を使用する。CapsNetsは存在(長さ)と姿勢パラメータ(向き)を符号化するためにベクトルを使用する。
  • ルーティング対プーリング:CNNはプーリングを用いてデータをダウンサンプリングし、位置情報を失うことが多い。CapsNetsは動的ルーティングを用いて空間データを保持し、精密な物体追跡を必要とするタスクに極めて効果的である。
  • データ効率性:カプセルは暗黙的に3D視点とアフィン変換を理解するため、 CNN(畳み込みニューラルネットワーク)と比較して少ない訓練データから一般化できることが多い。 CNNは物体のあらゆる回転を学習するために膨大な例を必要とする可能性がある。

実際のアプリケーション

CapsNetsはYOLO26のような最適化モデルよりも計算コストが高い場合が多いが、 特定の領域では明確な利点を提供する:

  1. 医療画像解析:医療分野では、異常病変の正確な方位と形状が極めて重要である。研究者らはカプセルネットワークを脳腫瘍のセグメンテーションに応用しており、このモデルは標準的な畳み込みニューラルネットワーク(CNN)では平滑化されがちな微妙な空間階層に基づいて、腫瘍を周囲組織から識別しなければならない。医療画像におけるカプセルネットワークに関する関連研究を探索できる。
  2. 重複数字認識:CapsNetsは特に数字が重なるシナリオにおいて、MNIST 最先端の結果を達成した。ネットワークが各数字の「姿勢」を追跡するため、重なり合った2つの数字(例:5の上に重なった3)を単一の混乱した特徴マップに統合するのではなく、別個のオブジェクトとして分離できる。

実践的背景と実装

カプセルネットワークは主に分類アーキテクチャである。理論的な頑健性を提供する一方で、現代の産業アプリケーションではリアルタイム性能のために高速なCNNやトランスフォーマーが好まれることが多い。しかし、MNISTなどのカプセルネットワークに用いられる分類ベンチマークを理解することは有用である。

以下の例は、現代的なモデルを訓練する方法を示しています。 YOLO MNIST を用いて ultralytics パッケージ。これはカプセルネットワークの検証に使用される主要なベンチマークタスクと並行する。

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

カプセルとビジョンAIの未来

カプセルネットワークの原理は、AIの安全性および解釈可能性に関する研究に引き続き影響を与えている。部分と全体の関係を明示的にモデル化することで、カプセルは深層ニューラルネットワークの「ブラックボックス」的性質に対する「ガラス箱」的代替案を提供し、意思決定の透明性を高める。今後の発展では、カプセルの空間的頑健性と、YOLO11などのアーキテクチャの推論速度を組み合わせることが検討されている。 YOLO11 や新世代のYOLO26といったアーキテクチャの推論速度を組み合わせ、3D物体検出やロボティクス分野での性能向上を図る。研究者らはさらに、合意アルゴリズムの計算コスト削減を目的として、EMルーティングを用いたマトリックスカプセルの研究も進めている。

開発者がデータセットを管理しモデルを効率的に学習させるために、 Ultralytics データをアノテーションし、 クラウド上で学習させ、CNNの速度と複雑なビジョンタスクに必要な精度を両立させるモデルを展開する 統合環境を提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加