ディープラーニングにおけるバックボーンの役割をご覧ください。ResNetやViTなどの主要なアーキテクチャを探索し、それらの現実世界のAIアプリケーションを学びます。
バックボーンは、深層学習アーキテクチャにおける基本的な特徴抽出コンポーネントであり、生データを意味のある表現に変換する主要なエンジンとして機能します。コンピュータビジョンにおいて、バックボーンは通常、入力画像を処理して階層的なパターンを識別するニューラルネットワーク内の層の連なりで構成されます。これらのパターンは、エッジやテクスチャのような単純な低レベル特徴から、形状や物体といった複雑な高レベル概念まで多岐にわたります。 バックボーンの出力(特徴マップと呼ばれることが多い)は、分類や検出といった特定のタスクを実行する下流コンポーネントへの入力として機能する。
バックボーンの主な機能は、具体的な判断を行う前に画像の視覚的コンテンツを「認識」し理解することである。これは汎用翻訳機として機能し、ピクセル値を凝縮された情報豊富な形式に変換する。現代のバックボーンの多くは 畳み込みニューラルネットワーク(CNN) またはビジョン・トランスフォーマー(ViT)に依存し、 大規模なデータセット(例: ImageNetなどの大規模データセットで事前学習されることが多い。この事前学習プロセスは転移学習の中核的側面であり、モデルが以前に学習した視覚的特徴を活用することを可能にし、特定の用途向けに新規モデルを訓練するために必要なデータ量と時間を大幅に削減する。
例えば、Ultralytics を利用する場合、そのアーキテクチャには高度に最適化されたバックボーンが含まれており、多階層の特徴を効率的に抽出します。これにより、ネットワークの後続部分は、基本的な視覚構造を認識する方法を一から再学習する必要なく、オブジェクトの位置特定とクラス確率の割り当てに完全に集中できます。
物体検出モデルのアーキテクチャを完全に理解するには、バックボーンを他の2つの主要コンポーネント(ネックとヘッド)と区別することが不可欠である。
バックボーンは、多くの産業用および科学的なAIアプリケーションを支える陰の働き手である。 視覚データを一般化する能力により、多様な分野で適応可能となっている。
最先端のアーキテクチャである YOLO11 や 最先端のYOLO26といった最先端アーキテクチャは、デフォルトで強力なバックボーンを統合しています。これらのコンポーネントは、エッジデバイスから高性能GPUまで、様々なハードウェアプラットフォームにおいて最適な推論レイテンシを実現するよう設計されています。
以下のPython は、事前学習済みバックボーンを持つモデルをロードする方法を示しています。
ultralytics パッケージ。この設定により、推論時に特徴抽出のためのバックボーンが自動的に活用されます。
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
事前学習済みバックボーンを活用することで、Ultralytics を用いて独自のカスタムデータセットで微調整(ファインチューニング)を実行できます。この手法により、物流における荷物の検出などに使用されるような特殊なモデルの迅速な開発が可能となり、深層ニューラルネットワークをゼロから訓練するために通常必要とされる膨大な計算リソースを必要としません。