ディープラーニングにおけるバックボーンの役割を発見し、ResNetやViTのようなトップアーキテクチャを探求し、実際のAIアプリケーションを学ぶ。
バックボーンは、特にコンピュータビジョン(CV)において、深層学習モデルの中核となるコンポーネントである。主要な特徴抽出ネットワークとして機能する。バックボーンの主な仕事は、画像などの生の入力データを受け取り、物体検出、画像セグメンテーション、分類などの下流のタスクに使用できる高レベルの特徴、または特徴マップのセットに変換することである。バックボーンは、画像内のエッジ、テクスチャ、形状、オブジェクトなどの基本的なパターンを「見て」理解することを学習するニューラルネットワーク(NN)の一部と考えることができる。
バックボーンは通常、ImageNetのような大規模な画像分類データセットで事前訓練された深い畳み込みニューラルネットワーク(CNN)である。この事前学習プロセスは、転移学習の一種であり、一般的な視覚的特徴の膨大なライブラリを認識するようネットワークに教える。新しいタスクのためにモデルを構築するとき、開発者はゼロから始める代わりに、これらの事前訓練されたバックボーンを使用することが多い。このアプローチにより、学習時間と必要なラベル付きデータの量が大幅に削減され、同時にモデルの性能が向上することが多い。バックボーンによって抽出された特徴は、ネットワークの「ネック」と「ヘッド」に渡され、さらなる処理を行い、最終的な出力を生成する。バックボーンの選択は、多くの場合、精度、モデルサイズ、推論レイテンシー間のトレードオフを伴う。
バックボーンの設計は年々進化しており、新しいアーキテクチャが登場するたびに効率とパフォーマンスが向上している。最も影響力のあるバックボーン・アーキテクチャには、次のようなものがある:
典型的な物体検出アーキテクチャでは、モデルは3つの主要部分から構成される:
したがって、バックボーンは、検出モデルの残りの部分が構築される基礎となる。YOLOv8や YOLO11のようなモデルは、高品質の特徴抽出を保証するために強力なバックボーンを統合しており、これは様々なタスクにおいて最先端の性能を発揮するために不可欠です。様々なYOLOモデルの比較から、アーキテクチャの選択が性能にどのような影響を与えるかを調べることができます。
バックボーンは、数え切れないほどのAIアプリケーションの基本コンポーネントである:
データセットの管理とカスタムモデルのトレーニングを簡素化するUltralytics HUBのようなプラットフォームを使用することで、独自のプロジェクトに強力なバックボーンを使用するプロセスを合理化することができます。