用語集

バックボーン

ディープラーニングにおけるバックボーンの役割を発見し、ResNetやViTのようなトップアーキテクチャを探求し、実際のAIアプリケーションを学ぶ。

バックボーンは、特にコンピュータビジョン(CV)において深層学習モデルの中核となるコンポーネントである。主要な特徴抽出ネットワークとして機能する。バックボーンの主な仕事は、画像などの生の入力データを受け取り、物体検出画像セグメンテーション分類などの下流のタスクに使用できる高レベルの特徴、または特徴マップのセットに変換することである。バックボーンは、画像内のエッジ、テクスチャ、形状、オブジェクトなどの基本的なパターンを「見て」理解することを学習するニューラルネットワーク(NN)の一部と考えることができる。

バックボーンの仕組み

バックボーンは通常、ImageNetのような大規模な画像分類データセットで事前訓練された深い畳み込みニューラルネットワーク(CNN)である。この事前学習プロセスは、転移学習の一種であり、一般的な視覚的特徴の膨大なライブラリを認識するようネットワークに教える。新しいタスクのためにモデルを構築するとき、開発者はゼロから始める代わりに、これらの事前訓練されたバックボーンを使用することが多い。このアプローチにより、学習時間と必要なラベル付きデータの量が大幅に削減され、同時にモデルの性能が向上することが多い。バックボーンによって抽出された特徴は、ネットワークの「ネック」と「ヘッド」に渡され、さらなる処理を行い、最終的な出力を生成する。バックボーンの選択は、多くの場合、精度、モデルサイズ、推論レイテンシー間のトレードオフを伴う。

一般的なバックボーン・アーキテクチャ

バックボーンの設計は年々進化しており、新しいアーキテクチャが登場するたびに効率とパフォーマンスが向上している。最も影響力のあるバックボーン・アーキテクチャには、次のようなものがある:

  • 残差ネットワーク(ResNet) Microsoft Researchによって導入されたResNetモデルは、ネットワークに残差関数を学習させるために「スキップ接続」を使用する。この技術革新により、消失勾配問題に悩まされることなく、より深いネットワークの学習が可能になった。
  • EfficientNet: Google AIによって開発されたこのモデル・ファミリーは、ネットワークの深さ、幅、解像度のバランスを均一にする複合スケーリング手法を使用している。その結果、高精度で計算効率の高いモデルが生まれる。
  • ヴィジョン・トランスフォーマー(ViT)ViTは、NLPで成功したTransformerアーキテクチャを視覚に応用したもので、画像をパッチのシーケンスとして扱い、自己注意を用いてグローバルなコンテキストを捉える。
  • CSPNet (Cross Stage Partial Network):このアーキテクチャーは原著論文に記載されており、ネットワークステージの最初と最後から特徴マップを統合することで学習を改善し、勾配伝搬を強化し、計算ボトルネックを軽減する。多くのUltralytics YOLOモデルの主要コンポーネントである。

背骨と頭頸部

典型的な物体検出アーキテクチャでは、モデルは3つの主要部分から構成される:

  1. バックボーン:その役割は、入力画像から特徴抽出を行い、さまざまなスケールで特徴マップを作成することである。
  2. 首:バックボーンとヘッドの間に位置するコンポーネント。多くの場合、異なるレイヤーの特徴を組み合わせて、より豊かな表現を構築する。一般的な例としては、Feature Pyramid Network(FPN)がある。
  3. 検出ヘッドこれはネットワークの最後の部分であり、首から洗練された特徴を受け取り、実際の検出タスクを実行する。画像内のオブジェクトのバウンディングボックス、クラスラベル、信頼度スコアを予測する。

したがって、バックボーンは、検出モデルの残りの部分が構築される基礎となる。YOLOv8や YOLO11のようなモデルは、高品質の特徴抽出を保証するために強力なバックボーンを統合しており、これは様々なタスクにおいて最先端の性能を発揮するために不可欠です。様々なYOLOモデルの比較から、アーキテクチャの選択が性能にどのような影響を与えるかを調べることができます。

実世界での応用

バックボーンは、数え切れないほどのAIアプリケーションの基本コンポーネントである:

  1. 自律走行 自動運転車のシステムは、カメラやLiDARセンサーからの入力を処理するために、堅牢なバックボーン(ResNetやEfficientNetの亜種など)に大きく依存している。抽出された特徴により、車両、歩行者、信号、車線の検出と分類が可能になり、これはWaymoなどの企業が開発したシステムに見られるように、安全なナビゲーションと意思決定に不可欠です。
  2. 医療画像解析 ヘルスケアAIソリューションでは、X線、CT、MRIなどの医療スキャンを解析するためにバックボーンが使用される。例えば、DenseNetのようなバックボーンは、肺炎の兆候を検出するために胸部X線から特徴を抽出したり、腫瘍の可能性を特定するためにCTスキャンから特徴を抽出したりする(「Radiology: AI」の関連研究)。これにより、放射線科医は診断や治療計画を立てやすくなる。YOLO11のようなウルトラリティクス・モデルは、強力なバックボーンを活用することで、腫瘍検出のようなタスクに適応させることができる。

データセットの管理とカスタムモデルのトレーニングを簡素化するUltralytics HUBのようなプラットフォームを使用することで、独自のプロジェクトに強力なバックボーンを使用するプロセスを合理化することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク