カプセルネットワーク(CapsNets)を発見しよう:空間階層と特徴関係に優れた画期的なニューラルネットワークアーキテクチャ。
カプセル・ネットワーク(しばしばCapsNetsと略される)は、従来の畳み込みニューラルネットワーク(CNN)に代わるものとして設計された、革新的なタイプのニューラルネットワーク(NN)アーキテクチャである。AI研究者のジェフリー・ヒントン(Geoffrey Hinton)氏とそのチームによって初めて紹介されたCapsNetsは、CNNが画像内の空間階層と特徴間の関係を処理する方法における基本的な制限に対処することを目的としている。CNNは特徴抽出に優れているが、プーリング層を使用するため、正確な空間情報が失われる可能性がある。CapsNetsは、単一のスカラー値ではなくベクトルを出力するニューロンのグループである「カプセル」を使った、異なるアプローチを提案する。これらのベクトルには、ポーズ(位置、向き、スケール)や特徴の存在確率のような特性を含む、検出された特徴に関するより豊富な情報がエンコードされる。この構造により、CapsNetsは部分と全体の関係をより適切にモデル化し、空間認識を維持することが可能になり、コンピュータビジョン(CV)タスクにおける視点の変化に対するロバスト性が向上する可能性がある。
CapsNetの中心的な要素は "カプセル "である。標準的なニューロンとは異なり、各カプセルは入力の領域内で特定のエンティティを検出し、ベクトルを出力する。ベクトルの大きさ(長さ)は、検出された実体が存在する確率を表し、ベクトルの向きは、実体の正確なポーズやテクスチャの詳細などの実体のインスタンス化パラメータを表す。このベクトルベースの出力は、他の多くのディープラーニング(DL)モデルに典型的なスカラー活性化とは大きく対照的である。
下位レイヤーのカプセルは、変換行列を使って上位レイヤーのカプセルの出力予測を生成する。ルーティング・バイ・アグリーメント」として知られる重要なメカニズムが、これらの層間の接続を動的に決定する。複数の下位カプセルからの予測が、上位特徴の存在とポーズに関して一致(合意)した場合、対応する上位カプセルがアクティブになる。この動的なルーティングプロセスにより、ネットワークはパーツを認識し、それらがどのように組み合わさって全体となるかを理解し、空間階層を効果的に保持することができる。基本的な考え方は論文「Dynamic Routing Between Capsules」に詳しい。このアプローチは、物体の構成に関する微妙な理解を必要とするタスクに役立ち、大規模なデータ増強の必要性を少なくしてパフォーマンスを向上させる可能性がある。
CapsNetsは、特に空間データの取り扱いと特徴の表現において、広く使われているCNNとは異なるパラダイムを提供する:
CapsNetsは、従来のニューラルネットワークアーキテクチャと比較して、いくつかの潜在的な利点を備えている:
CapsNetsはまだ主に活発な研究分野であり、以下のような確立されたモデルよりもあまり一般的に展開されていないが Ultralytics YOLOや YOLO11のような確立されたモデルほど一般的ではないが、いくつかの領域で有望視されている:
さらなる応用の可能性としては、特に乱雑なシーンにおける物体検出の改善、ロボット工学におけるシーン理解の強化、自律走行車のよりロバストな知覚システムへの貢献が挙げられる。計算負荷は依然として課題であるが、現在進行中の研究は、より広範な機械学習(ML)アプリケーションや、以下のようなフレームワークへの統合の可能性のために、CapsNetの効率を最適化することを目指している。 PyTorchまたは TensorFlow.CapsNetsが将来の展望の中でどのような位置づけになるかを理解するために、さまざまな物体検出モデルの比較を調べることができます。