Yolo 深圳
深セン
今すぐ参加
用語集

Capsule Networks(CapsNet)

Capsule Networks(CapsNets)をご覧ください。空間階層と特徴の関係に優れた、画期的なニューラルネットワークアーキテクチャです。

カプセル・ネットワーク(CapsNets)は、ディープラーニング(DL)分野の洗練された進化を象徴している。 ディープラーニング(DL)分野の洗練された進化形である。 従来の 畳み込みニューラルネットワーク(CNN)。著名な研究者であるジェフリー・ヒントン(Geoffrey Hinton)らによって初めて導入された。 このアーキテクチャは、ニューロンを "カプセル "と呼ばれるグループにまとめる。標準的なニューロンとは異なり カプセルはベクトルを出力する。このベクトルの向きと長さによって ネットワークは、物体の正確な位置、大きさ、向き、質感など、物体に関するより豊かな情報を符号化することができる。 この機能により、モデルは特徴間の階層的関係をよりよく理解することができる。 ビジュアル・シーンを分解する「逆グラフィックス」を実行する。

コアメカニズムの理解

CapsNetの特徴は、オブジェクトの異なる部分間の空間的関係を保持する能力である。 である。標準的な CNNを用いた標準コンピュータ・ビジョン(CV)ワークフローでは、レイヤ CNNを用いた標準的なコンピュータ・ビジョン(CV)ワークフローでは、多くの場合、次元を削減するためにプーリング操作が使用される。 不変性を達成するために、正確な空間データは捨てられる。しかし、CapsNetsは「等価性」を目指している。 つまり、画像内で物体が動いたり回転したりしても、カプセルのベクトル表現は認識できなくなるのではなく、比例して変化する。

これは、"ダイナミック・ルーティング "または "合意によるルーティング "と呼ばれるプロセスによって達成される。代わりに 単に次の層のすべてのニューロンに信号を転送するのではなく、下位レベルのカプセ ルは、その予測に「同意する」上位レベルのカプセルに出力を送る。 に送る。例えば、鼻を検出するカプセルは、空間的方位が一致すれば、顔カプセルに強く信号を送る。 例えば、鼻を検出したカプセルは、空間的な方向が一致すれば、顔カプセルに強く信号を送る。 特徴抽出プロセスの構造的理解を強化する。この概念は に関する研究論文で詳述されている。 カプセル間の動的ルーティング.

CapsNetsとCNNの違い

どちらのアーキテクチャーも機械学習(ML)において極めて重要であるが 機械学習(ML)においては極めて重要であるが 視覚データをどのように処理するかという点で大きく異なっている:

  • スカラー出力とベクトル出力:CNNニューロンは特徴の存在を示すスカラー値を出力する。 CapsNetsは、エンティティの存在とその特性(ポーズ、変形、色相)を表すためにベクトル出力を使用する。
  • プーリングとルーティング:CNNは プーリング層(最大 プーリング)のようなプーリング層を利用する。CapsNetsは動的ルーティングを使用し 空間階層を保持するため、ポーズ推定のようなタスクに効果的な可能性がある。 ポーズ推定
  • データ効率:CapsNetsは、視点のバリエーションを内部的に符号化するため、従来の一般化と比較して、より少ないトレーニングデータで汎化できる可能性がある。 汎化するために必要な学習データは、従来のモデル 従来のモデルは、回転やアフィニ 回転やアフィン変換を学習するために大規模なデータ補強を必要とすることが多い。 変換を学習するための大規模なデータ増強が必要になることが多い。

実際のアプリケーション

CapsNetsは計算量が多く、以下のような最適化されたアーキテクチャに比べると、あまり広く採用されていない。 YOLO11のような最適化されたアーキテクチャーに比べ、計算集約的である。 領域で有望視されている:

  1. 医療画像解析:空間階層を扱う能力により、CapsNetsは医用画像解析に威力を発揮する。 医療画像解析に役立ちます。例えば 研究者はCapsNetsを 脳腫瘍のセグメンテーションに応用している。 正確な診断には、腫瘍の正確な形状と向きを周辺組織から区別することが重要である。
  2. 手書き文字認識:CapsNetsは MNIST データセットで最先端の性能を達成しました。 特に、標準的な画像分類モデル 標準的な画像分類モデルでは 特に、標準的な画像分類モデルでは特徴を分離するのに苦労するような、重複する数字を含むシナリオにおいて、最先端の性能を達成した。

実践的な実施

CapsNetsには理論的な利点があるが、現代の業界標準では、高度に最適化されたCNNやトランスフォーマーベースのモデルが好まれることが多い。 Transformerベースのモデルが好まれます。しかし、CapsNetsの主要なベンチマークである分類タスクで実験することができます。 CapsNetsの主なベンチマークである ultralytics ライブラリを使用します。次の例は、MNISTデータセットでYOLO11 分類モデルを、階層的特徴認識をテストするための一般的な遊び場であるMNIST データセット上で学習しています。

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

今後の展望

カプセル・ネットワークの研究は、AIの安全性と解釈可能性の開発に影響を与え続けている。 AIの安全性と解釈可能性の開発に影響を与え続けている。部分と全体の関係を明示的にモデル化することで 部分と全体の関係を明示的にモデル化することで、いくつかのディープネットワークの「ブラックボックス」的性質と比較して、より説明可能なAIへの道を提供する。 より説明可能なAIへの道を提供する。将来の進歩は、これらの概念を次のようなものに統合することに焦点を当てるかもしれない。 ルーティング・アルゴリズムの計算コストを削減することである。 ルーティング・アルゴリズムの計算コストを削減し、YOLO26のようなモデルの効率性とロバストな空間情報を融合させる可能性がある。 YOLO26のようなモデルの効率性と、カプセルのロバストな空間理解を融合させる可能性がある。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加