バックボーン
ディープラーニングにおけるバックボーンの役割をご覧ください。ResNetやViTなどの主要なアーキテクチャを探索し、それらの現実世界のAIアプリケーションを学びます。
バックボーンは、特にコンピュータビジョン(CV)において、深層学習モデルの中核となるコンポーネントです。これは、主要な特徴抽出ネットワークとして機能します。その主な役割は、画像などの生の入力データを受け取り、物体検出、画像セグメンテーション、分類などのダウンストリームタスクに使用できる高レベルの特徴、つまり特徴マップのセットに変換することです。バックボーンは、画像内のエッジ、テクスチャ、形状、オブジェクトなどの基本的なパターンを「見て」理解することを学習するニューラルネットワーク(NN)の一部と考えることができます。
バックボーンの仕組み
バックボーンは通常、ImageNetなどの大規模な画像分類データセットで事前トレーニングされた深い畳み込みニューラルネットワーク(CNN)です。この事前トレーニングプロセスは、転移学習の一形態であり、ネットワークに膨大な一般的な視覚的特徴のライブラリを認識させることを教えます。新しいタスクのモデルを構築する場合、開発者は多くの場合、最初から始めるのではなく、これらの事前トレーニングされたバックボーンを使用します。このアプローチにより、トレーニング時間と必要なラベル付きデータの量が大幅に削減されると同時に、モデルのパフォーマンスが向上することがよくあります。バックボーンによって抽出された特徴は、ネットワークの「ネック」と「ヘッド」に渡され、そこでさらに処理が行われ、最終的な出力が生成されます。バックボーンの選択には、精度、モデルサイズ、推論レイテンシの間のトレードオフが伴うことが多く、リアルタイムパフォーマンスを実現するために重要です。
一般的なバックボーンアーキテクチャ
バックボーンの設計は長年にわたって進化しており、新しいアーキテクチャが登場するたびに効率とパフォーマンスが向上しています。最も影響力のあるバックボーンアーキテクチャには、次のものがあります。
- 残留ネットワーク(ResNet):Microsoft Researchによって導入されたResNetモデルは、ネットワークに残差関数を学習させるために「スキップ接続」を使用する。この技術革新により、消失勾配問題に悩まされることなく、より深いネットワークの学習が可能になった。
- EfficientNet: Google AIによって開発されたこのモデルファミリーは、複合スケーリング法を使用して、ネットワークの深さ、幅、解像度を均一にバランスさせます。これにより、高精度で計算効率の高いモデルが実現します。
- ヴィジョン・トランスフォーマー(ViT):ViTは、NLPで成功したTransformerアーキテクチャを視覚に応用したもので、画像をパッチのシーケンスとして扱い、自己注意を用いてグローバルなコンテキストを捉える。
- CSPNet(Cross Stage Partial Network): 元の論文で説明されているこのアーキテクチャは、ネットワークステージの最初と最後からの特徴マップを統合することで学習を改善し、勾配の伝播を強化し、計算のボトルネックを軽減します。多くのUltralytics YOLOモデルの主要なコンポーネントです。
バックボーンとヘッド・アンド・ネック
一般的な物体検出アーキテクチャでは、モデルは主に3つの部分で構成されています。
- バックボーン: その役割は、入力画像から特徴を抽出し、さまざまなスケールで特徴マップを作成することです。
- ネック: このコンポーネントは、バックボーンとヘッドの間に位置します。バックボーンからの特徴マップを洗練および集約し、多くの場合、異なるレイヤーからの特徴を組み合わせて、より豊富な表現を構築します。一般的な例は、Feature Pyramid Network(FPN)です。
- 検出ヘッド:これはネットワークの最後の部分であり、首から洗練された特徴を受け取り、実際の検出タスクを実行する。画像内のオブジェクトのバウンディングボックス、クラスラベル、信頼度スコアを予測する。
したがって、バックボーンは、検出モデルの残りの部分が構築される基盤となります。YOLOv8やYOLO11のようなモデルは、高品質の特徴抽出を保証するために強力なバックボーンを統合しており、これはさまざまなタスクにわたる最先端のパフォーマンスに不可欠です。アーキテクチャの選択がパフォーマンスにどのように影響するかを確認するために、さまざまなYOLOモデルの比較を調べることができます。
実際のアプリケーション
バックボーンは、数えきれないほどのAIアプリケーションにおける基本的な構成要素です。
- 自律走行: 自動運転車のシステムは、カメラやLiDARセンサーからの入力を処理するために、堅牢なバックボーン(ResNetやEfficientNetの亜種など)に大きく依存している。抽出された特徴により、車両、歩行者、信号、車線の検出と分類が可能になります。これは、Waymoなどの企業が開発したシステムに見られるように、安全なナビゲーションと意思決定に不可欠です。
- 医用画像解析: ヘルスケアAIソリューションでは、X線、CT、MRIなどの医療スキャンを解析するためにバックボーンが使用される。例えば、DenseNetのようなバックボーンは、肺炎の兆候を検出するために胸部X線から特徴を抽出したり、潜在的な腫瘍を特定するためにCTスキャンから特徴を抽出したりする(「Radiology: AI」の関連研究)。これにより、放射線科医は診断や治療計画を立てやすくなる。YOLO11のようなウルトラリティクス・モデルは、強力なバックボーンを活用することで、腫瘍検出のようなタスクに適応させることができる。
Ultralytics HUBのようなプラットフォームを使用することで、独自のプロジェクトで強力なバックボーンをより簡単に利用できるようになります。Ultralytics HUBは、データセットの管理やカスタムモデルのトレーニングを簡素化します。