Capsule Networks(CapsNets)をご覧ください。空間階層と特徴の関係に優れた、画期的なニューラルネットワークアーキテクチャです。
カプセル・ネットワーク(CapsNets)は、ディープラーニング(DL)分野の洗練された進化を象徴している。 ディープラーニング(DL)分野の洗練された進化形である。 従来の 畳み込みニューラルネットワーク(CNN)。著名な研究者であるジェフリー・ヒントン(Geoffrey Hinton)らによって初めて導入された。 このアーキテクチャは、ニューロンを "カプセル "と呼ばれるグループにまとめる。標準的なニューロンとは異なり カプセルはベクトルを出力する。このベクトルの向きと長さによって ネットワークは、物体の正確な位置、大きさ、向き、質感など、物体に関するより豊かな情報を符号化することができる。 この機能により、モデルは特徴間の階層的関係をよりよく理解することができる。 ビジュアル・シーンを分解する「逆グラフィックス」を実行する。
CapsNetの特徴は、オブジェクトの異なる部分間の空間的関係を保持する能力である。 である。標準的な CNNを用いた標準的なコンピュータ・ビジョン(CV)ワークフローでは、レイヤ CNNを用いた標準的なコンピュータ・ビジョン(CV)ワークフローでは、多くの場合、次元を削減するためにプーリング操作が使用される。 不変性を達成するために、正確な空間データは捨てられる。しかし、CapsNetsは「等価性」を目指している。 つまり、画像内で物体が動いたり回転したりしても、カプセルのベクトル表現は認識できなくなるのではなく、比例して変化する。
これは、"ダイナミック・ルーティング "または "合意によるルーティング "と呼ばれるプロセスによって達成される。代わりに 単に次の層のすべてのニューロンに信号を転送するのではなく、下位レベルのカプセ ルは、その予測に「同意する」上位レベルのカプセルに出力を送る。 に送る。例えば、鼻を検出するカプセルは、空間的方位が一致すれば、顔カプセルに強く信号を送る。 例えば、鼻を検出したカプセルは、空間的な方向が一致すれば、顔カプセルに強く信号を送る。 特徴抽出プロセスの構造的理解を強化する。この概念は に関する研究論文で詳述されている。 カプセル間の動的ルーティング.
どちらのアーキテクチャーも機械学習(ML)において極めて重要であるが 機械学習(ML)においては極めて重要であるが 視覚データをどのように処理するかという点で大きく異なっている:
CapsNetsは計算量が多く、以下のような最適化されたアーキテクチャに比べると、あまり広く採用されていない。 YOLO11のような最適化されたアーキテクチャーに比べ、計算集約的である。 領域で有望視されている:
CapsNetsには理論的な利点があるが、現代の業界標準では、高度に最適化されたCNNやトランスフォーマーベースのモデルが好まれることが多い。
Transformerベースのモデルが好まれます。しかし、CapsNetsの主要なベンチマークである分類タスクで実験することができます。
CapsNetsの主なベンチマークである ultralytics ライブラリを使用します。次の例は、MNISTデータセットでYOLO11
分類モデルを、階層的特徴認識をテストするための一般的な遊び場であるMNIST データセット上で学習しています。
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
カプセル・ネットワークの研究は、AIの安全性と解釈可能性の開発に影響を与え続けている。 AIの安全性と解釈可能性の開発に影響を与え続けている。部分と全体の関係を明示的にモデル化することで 部分と全体の関係を明示的にモデル化することで、いくつかのディープネットワークの「ブラックボックス」的性質と比較して、より説明可能なAIへの道を提供する。 より説明可能なAIへの道を提供する。将来の進歩は、これらの概念を次のようなものに統合することに焦点を当てるかもしれない。 ルーティング・アルゴリズムの計算コストを削減することである。 ルーティング・アルゴリズムの計算コストを削減し、YOLO26のようなモデルの効率性とロバストな空間情報を融合させる可能性がある。 YOLO26のようなモデルの効率性と、カプセルのロバストな空間理解を融合させる可能性がある。