Capsule Networks(CapsNets)をご覧ください。空間階層と特徴の関係に優れた、画期的なニューラルネットワークアーキテクチャです。
CapsNets(カプセルネットワークの略)は、畳み込みニューラルネットワーク(CNN)の主要な制限事項を克服するために設計された一種のニューラルネットワーク(NN)アーキテクチャです。Geoffrey Hinton氏とそのチームによって提唱されたCapsNetsは、画像内の特徴間の階層的な関係をより良く認識することを目的としています。標準的なCNNのニューロンが単一のスカラー値を出力するのとは異なり、CapsNetの「カプセル」はベクトルを出力し、オブジェクトのポーズ(位置、サイズ、向き)、変形、テクスチャなどのプロパティに関するより詳細な情報をエンコードできます。この構造により、視点や向きの変化に対して本質的により堅牢になります。
CapsNetの核となる革新性は、特徴量間の空間的な階層構造を保持する能力です。CNNは、口、鼻、目などの顔の構成要素を認識するかもしれませんが、それらの空間的な関係を明示的に理解しているわけではありません。しかし、CapsNetは、カプセルと呼ばれるニューロンのグループを使用して、これらのパーツとその相対的な方向を識別します。これは、「動的ルーティング」と呼ばれるプロセスを通じて実現されます。このプロセスでは、下位レベルのカプセルが、その結果を最も適切に説明できる上位レベルのカプセルに出力を送信します。このアプローチは、重要な空間情報を破棄することが多いCNNのプーリング層とは根本的に異なります。元の概念は、論文Dynamic Routing Between Capsulesで詳しく説明されています。
CapsNetとCNNの主な違いは、空間情報と抽象化の処理方法にあります。
Ultralytics YOLOのようなモデルは、実用的なコンピュータビジョン(CV)タスクにおける速度と精度に高度に最適化されていますが、CapsNetは、視覚シーンの基本的な理解を向上させることに焦点を当てた代替アーキテクチャ哲学を表しています。現在の状況を理解するために、さまざまな物体検出モデル間の比較を調べることができます。
CapsNetはまだ活発な研究分野であり、YOLO11のような確立されたモデルほど一般的には導入されていませんが、いくつかの分野で有望であることが示されています。
さらなる応用例としては、特に複雑なシーンでの物体検出の改善、ロボティクスにおけるシーン理解の強化、自動運転車向けのより堅牢な知覚システムの実現などが考えられます。計算負荷が高いという課題は残りますが、現在進行中の研究では、より広範な機械学習(ML)アプリケーションや、PyTorchやTensorFlowのようなフレームワークへの統合に向けて、CapsNetの効率を最適化することを目指しています。