Object Detection Architectures
バックボーンからヘッドまで、オブジェクト検出アーキテクチャを探求します。Ultralytics YOLO26が、リアルタイムコンピュータビジョンのためにどのように優れた速度と精度を実現するかを学びましょう。
Object detection architectures are the structural blueprints of the neural networks used to identify and locate items within visual data. In the broader field of computer vision (CV), these architectures define how a machine "sees" by processing raw pixel data into meaningful insights. Unlike basic classification models that simply label an image, an object detection architecture is designed to output a bounding box alongside a class label and a confidence score for every distinct object it finds. This structural design dictates the model's speed, accuracy, and computational efficiency, making it the critical factor when choosing a model for real-time inference or high-precision analysis.
Link to this sectionアーキテクチャの主要コンポーネント#
While specific designs vary, most modern architectures share three fundamental components: the backbone, the neck, and the head. The backbone acts as the primary feature extractor. It is typically a Convolutional Neural Network (CNN) pre-trained on a large dataset like ImageNet, responsible for identifying basic shapes, edges, and textures. Popular choices for backbones include ResNet and CSPDarknet.
ネックは、バックボーンと最終的な出力層を接続します。その役割は、マルチスケール特徴融合として知られる概念に基づき、バックボーンの異なる段階から抽出された特徴を混合・結合することで、モデルがさまざまなサイズの物体を検出できるようにすることです。アーキテクチャでは、予測層に渡されるセマンティック情報を強化するために、特徴ピラミッドネットワーク (FPN)やPath Aggregation Network (PANet) がしばしば使用されます。最後に、検出ヘッドがこれらの融合された特徴を処理し、各物体の特定のクラスと座標位置を予測します。
Link to this section進化:2ステージ対1ステージ#
歴史的に、アーキテクチャは大きく2つのカテゴリに分けられてきました。R-CNNファミリーのような2ステージ検出器は、まず物体が存在する可能性のある関心領域 (RoI) を提案し、次のステップでそれらの領域を分類します。一般的に精度は高いものの、多くの場合、エッジデバイスで動作させるには計算負荷が高すぎます。
対照的に、1ステージ検出器は、検出を単純な回帰問題として扱い、画像のピクセルをバウンディングボックスの座標とクラス確率に直接マッピングする単一パスの処理を行います。YOLO (You Only Look Once) ファミリーによって先駆的に開拓されたこのアプローチは、リアルタイム性能を実現することで業界に革命をもたらしました。現代の進歩により、YOLO26のようなモデルが登場しました。これらは優れた速度を提供するだけでなく、エンドツーエンドのNMSフリーなアーキテクチャを採用しています。非最大値抑制 (NMS)の後処理を不要にすることで、これらの新しいアーキテクチャは遅延の変動を抑えており、これは安全性が重視されるシステムにおいて不可欠です。
Link to this section実社会での応用#
アーキテクチャの選択は、さまざまな業界におけるAIソリューションの成功に直接影響を与えます。
- リテール自動化:スマートスーパーマーケットでは、効率的な1ステージアーキテクチャにより、コンベアベルトやショッピングカート上の商品を即座に認識する自動チェックアウトシステムが可能になり、待ち時間と人為的ミスを削減します。
- **医療診断:**高精度なアーキテクチャは、医療画像分析において、X線やMRIスキャン内の腫瘍などの異常を検出するために使用されます。ここでは、処理速度よりも、アーキテクチャが細部を保持できる能力がより重要となります。
Link to this section関連用語の区別#
検出アーキテクチャを類似のコンピュータビジョンのタスクと区別することが重要です。
- 画像分類との違い:画像分類アーキテクチャ (VGGやEfficientNetなど) は、画像全体に対して単一のラベル (例:「猫」) を割り当てます。これは猫が「どこにいるのか」、あるいは「複数の猫がいるのか」を特定するものではなく、それこそが検出アーキテクチャの主要な機能です。
- **インスタンスセグメンテーションとの違い:**検出が物体の周りにボックスを配置するのに対し、インスタンスセグメンテーションは、各物体の正確なピクセル単位の輪郭 (マスク) を識別します。セグメンテーションアーキテクチャは、多くの場合、検出アーキテクチャの拡張版です (例:検出ヘッドにマスクブランチを追加する)。
Link to this sectionUltralyticsによる実装#
現代のフレームワークは、これらのアーキテクチャの複雑さを抽象化しており、開発者が最小限のコードで最先端の設計を活用できるようにしています。ultralyticsパッケージを使用すれば、事前学習済みのYOLO26モデルを読み込んで即座に推論を実行できます。データセットを管理し、クラウド上でカスタムアーキテクチャをトレーニングしたいチームにとって、Ultralytics PlatformはMLOpsパイプライン全体を簡素化します。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()





