YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

Capsule Networks(CapsNet)

カプセルネットワーク(CapsNets)と、それがCNNの限界をどのように解決するかを探ります。動的ルーティング、空間階層、そしてCapsNetsとYOLO26の比較について学びましょう。

カプセルネットワーク(CapsNetsと略されることが多い)は、ディープラーニング分野における高度なアーキテクチャであり、従来のニューラルネットワークに見られる特定の制限を克服するために設計されています。Geoffrey Hintonとそのチームによって導入されたCapsNetsは、標準的なモデルよりも人間の脳の生物学的ニューラル組織をより密接に模倣しようとします。特徴のdetectには優れているものの、ダウンサンプリングによって空間関係を失いがちな一般的な畳み込みニューラルネットワーク(CNN)とは異なり、カプセルネットワークはニューロンを「カプセル」と呼ばれるグループに編成します。これらのカプセルは、オブジェクトの存在確率だけでなく、向き、サイズ、テクスチャなどの特定のプロパティもエンコードし、視覚データ内の階層的な空間関係を効果的に保持します。

従来のCNNの限界

CapsNetの革新性を理解するには、標準的なコンピュータービジョンモデルがどのように動作するかを見ると役立ちます。従来のCNNは、計算負荷を軽減し、並進不変性を実現するために、特徴抽出層とそれに続くプーリング層、特に最大プーリングを使用します。これは、CNNが画像内のどこに猫がいても「猫」を識別できることを意味します。

しかし、このプロセスはしばしば正確な位置データを破棄し、「ピカソ問題」につながります。CNNは、口が額にあっても、必要な特徴がすべて存在するという理由だけで顔を正しくclassifyする可能性があります。CapsNetは、プーリング層を削除し、オブジェクトの空間階層を尊重するプロセスに置き換えることで、この問題に対処します。

カプセルネットワークの仕組み

このアーキテクチャのコアとなる構成要素はカプセルであり、スカラー値ではなくベクトルを出力する入れ子になったニューロンの集合です。ベクトル数学において、ベクトルは大きさと方向の両方を持っています。CapsNetでは:

  • マグニチュード(長さ): 現在の入力に特定のエンティティが存在する確率を表します。
  • 方向 (向き): オブジェクトの姿勢推定、スケール、回転などのインスタンス化パラメータをエンコードします。

下位層のカプセル(エッジのような単純な形状をdetectする)は、上位層のカプセル(目やタイヤのような複雑なオブジェクトをdetectする)の出力を予測します。この通信は、「動的ルーティング」または「合意によるルーティング」と呼ばれるアルゴリズムによって管理されます。下位レベルのカプセルの予測が上位レベルのカプセルの状態と一致する場合、それらの間の接続が強化されます。これにより、ネットワークは、CNNに回転とスケールについて教えるために通常必要とされる大規模なデータ拡張を必要とせずに、異なる3D視点からオブジェクトを認識できます。

主な相違点:CapsNetsとCNNs

両アーキテクチャはコンピュータビジョン(CV)の基盤となるが、 視覚データの処理と表現方法において差異がある:

  • スカラー vs. ベクトル: CNNニューロンはスカラー出力を使用して特徴の存在を示します。CapsNetはベクトルを使用して存在(長さ)と姿勢パラメータ(向き)をエンコードします。
  • ルーティング vs. プーリング: CNNはプーリングを使用してデータをダウンサンプリングしますが、多くの場合、位置の詳細が失われます。CapsNetは動的ルーティングを使用して空間データを保持するため、正確な物体trackを必要とするタスクに非常に効果的です。
  • データ効率: カプセルは3D視点とアフィン変換を暗黙的に理解するため、CNNと比較して少ないトレーニングデータから汎化できることがよくあります。CNNはオブジェクトのあらゆる可能な回転を学習するために広範な例を必要とする場合があります。

実際のアプリケーション

CapsNetsはYOLO26のような最適化モデルよりも計算コストが高い場合が多いが、 特定の領域では明確な利点を提供する:

  1. 医療画像解析:医療分野では、異常病変の正確な方位と形状が極めて重要である。研究者らはカプセルネットワークを脳腫瘍のセグメンテーションに応用しており、このモデルは標準的な畳み込みニューラルネットワーク(CNN)では平滑化されがちな微妙な空間階層に基づいて、腫瘍を周囲組織から識別しなければならない。医療画像におけるカプセルネットワークに関する関連研究を探索できる。
  2. 重なり合う数字の認識: CapsNetsは、特に数字が重なり合うシナリオにおいて、MNIST datasetで最先端の結果を達成しました。ネットワークが各数字の「ポーズ」を追跡するため、2つの重なり合う数字(例:'5'の上に'3')を、単一の混同された特徴マップにマージするのではなく、別個のオブジェクトとして分離できます。

実践的背景と実装

カプセルネットワークは主に分類アーキテクチャである。理論的な頑健性を提供する一方で、現代の産業アプリケーションではリアルタイム性能のために高速なCNNやトランスフォーマーが好まれることが多い。しかし、MNISTなどのカプセルネットワークに用いられる分類ベンチマークを理解することは有用である。

以下の例は、現代的なモデルを訓練する方法を示しています。 YOLO MNIST を用いて ultralytics パッケージ。これはカプセルネットワークの検証に使用される主要なベンチマークタスクと並行する。

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

カプセルとビジョンAIの未来

カプセルネットワークの原理は、AIの安全性および解釈可能性に関する研究に引き続き影響を与えている。部分と全体の関係を明示的にモデル化することで、カプセルは深層ニューラルネットワークの「ブラックボックス」的性質に対する「ガラス箱」的代替案を提供し、意思決定の透明性を高める。今後の発展では、カプセルの空間的頑健性と、YOLO11などのアーキテクチャの推論速度を組み合わせることが検討されている。 YOLO11 や新世代のYOLO26といったアーキテクチャの推論速度を組み合わせ、3D物体検出やロボティクス分野での性能向上を図る。研究者らはさらに、合意アルゴリズムの計算コスト削減を目的として、EMルーティングを用いたマトリックスカプセルの研究も進めている。

データセットを管理し、モデルを効率的にトレーニングしようとしている開発者にとって、Ultralytics Platformは、データのアノテーション、クラウドでのトレーニング、そしてCNNの速度と複雑なビジョンタスクに必要な精度を両立させるモデルのデプロイのための統合環境を提供します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。