用語集

カプセルネットワークス(CapsNet)

カプセルネットワーク(CapsNets)を発見しよう:空間階層と特徴関係に優れた画期的なニューラルネットワークアーキテクチャ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

カプセル・ネットワーク(しばしばCapsNetsと略される)は、従来の畳み込みニューラルネットワーク(CNN)に代わるものとして設計された、革新的なタイプのニューラルネットワーク(NN)アーキテクチャである。AI研究者のジェフリー・ヒントン(Geoffrey Hinton)氏とそのチームによって初めて紹介されたCapsNetsは、CNNが画像内の空間階層と特徴間の関係を処理する方法における基本的な制限に対処することを目的としている。CNNは特徴抽出に優れているが、プーリング層を使用するため、正確な空間情報が失われる可能性がある。CapsNetsは、単一のスカラー値ではなくベクトルを出力するニューロンのグループである「カプセル」を使った、異なるアプローチを提案する。これらのベクトルには、ポーズ(位置、向き、スケール)や特徴の存在確率のような特性を含む、検出された特徴に関するより豊富な情報がエンコードされる。この構造により、CapsNetsは部分と全体の関係をより適切にモデル化し、空間認識を維持することが可能になり、コンピュータビジョン(CV)タスクにおける視点の変化に対するロバスト性が向上する可能性がある。

コア・コンセプト

CapsNetの中心的な要素は "カプセル "である。標準的なニューロンとは異なり、各カプセルは入力の領域内で特定のエンティティを検出し、ベクトルを出力する。ベクトルの大きさ(長さ)は、検出された実体が存在する確率を表し、ベクトルの向きは、実体の正確なポーズやテクスチャの詳細などの実体のインスタンス化パラメータを表す。このベクトルベースの出力は、他の多くのディープラーニング(DL)モデルに典型的なスカラー活性化とは大きく対照的である。

下位レイヤーのカプセルは、変換行列を使って上位レイヤーのカプセルの出力予測を生成する。ルーティング・バイ・アグリーメント」として知られる重要なメカニズムが、これらの層間の接続を動的に決定する。複数の下位カプセルからの予測が、上位特徴の存在とポーズに関して一致(合意)した場合、対応する上位カプセルがアクティブになる。この動的なルーティングプロセスにより、ネットワークはパーツを認識し、それらがどのように組み合わさって全体となるかを理解し、空間階層を効果的に保持することができる。基本的な考え方は論文「Dynamic Routing Between Capsules」に詳しい。このアプローチは、物体の構成に関する微妙な理解を必要とするタスクに役立ち、大規模なデータ増強の必要性を少なくしてパフォーマンスを向上させる可能性がある。

畳み込みニューラルネットワーク(CNN)との主な違い

CapsNetsは、特に空間データの取り扱いと特徴の表現において、広く使われているCNNとは異なるパラダイムを提供する:

  • 空間階層の処理:CNNはしばしばプーリングレイヤーによって空間情報を失う。CapsNetsは、特徴間の階層的なポーズ関係を明示的に保持するように設計されており、オブジェクトの構造を理解する上で本質的に優れている。
  • 特徴表現:CNNは通常、スカラー活性化を使って特徴の存在を表現する。CapsNetsは特徴の存在と特性(ポーズや変形など)の両方をエンコードするベクトル出力(カプセル)を利用する。
  • 視点不変性:CapsNetsは、視点の移動によって表現が予測可能に変化することを意味する等価性を目指しているが、CNNは視点不変性を学習するために大量の学習データを必要とすることが多い。
  • ルーティング・メカニズム:CNNはマックス・プーリングや他の静的なプーリング方法を使う。CapsNetsは、カプセル層間の予測の一貫性に基づいて接続を重み付けする、合意による動的ルーティングを採用している。

カプセル・ネットワークの利点

CapsNetsは、従来のニューラルネットワークアーキテクチャと比較して、いくつかの潜在的な利点を備えている:

  • 視点耐性の向上:その構造により、トレーニング中に特定の視点を見る必要がなく、新しい視点に対してよりよく汎化することができる。
  • より優れた部分と全体の関係モデリング:ルーティングメカニズムにより、CapsNetsは、複雑な画像認識タスクに不可欠な、パーツがどのように組み合わさってオブジェクトを形成するかを理解することができます。
  • データ効率:特に空間的な関係に敏感なタスクでは、CNNに比べて少ないデータセットで高い精度を達成できる可能性がある。
  • 重なり合うオブジェクトのセグメンテーション:領域内の複数のエンティティとそのポーズを表現する能力は、オブジェクトが大きく重なるインスタンスのセグメンテーションのようなタスクを支援する可能性がある。トレーニングとデプロイの管理は、Ultralytics HUBのようなプラットフォームを使って行うことができる。

実世界での応用

CapsNetsはまだ主に活発な研究分野であり、以下のような確立されたモデルよりもあまり一般的に展開されていないが Ultralytics YOLOYOLO11のような確立されたモデルほど一般的ではないが、いくつかの領域で有望視されている:

  1. 文字認識:CapsNetsは手書き数字のMNISTデータセットで最先端の結果を達成し、向きやスタイルのバリエーションを効果的に処理する能力を示し、いくつかのベンチマークで従来の画像分類アプローチを上回った。
  2. 医療画像解析:CapsNetsは空間構成を理解することに長けているため、医療スキャン画像の解析に適している。例えば、脳腫瘍のセグメンテーションのような、異常の正確な形状と位置を特定することが重要なタスクにCapsNetsを使用することが研究されている。これは、より広範な医療画像解析の分野に該当する。

さらなる応用の可能性としては、特に乱雑なシーンにおける物体検出の改善、ロボット工学におけるシーン理解の強化、自律走行車のよりロバストな知覚システムへの貢献が挙げられる。計算負荷は依然として課題であるが、現在進行中の研究は、より広範な機械学習(ML)アプリケーションや、以下のようなフレームワークへの統合の可能性のために、CapsNetの効率を最適化することを目指している。 PyTorchまたは TensorFlow.CapsNetsが将来の展望の中でどのような位置づけになるかを理解するために、さまざまな物体検出モデルの比較を調べることができます。

すべて読む