YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

物体検出アーキテクチャ

バックボーンからヘッドまで、object detectionアーキテクチャを探ります。Ultralytics YOLO26がリアルタイムコンピュータビジョンにおいて、いかに優れた速度と精度を実現するかを学びましょう。

オブジェクト検出アーキテクチャは、視覚データ内のアイテムを識別し、位置を特定するために使用されるニューラルネットワークの構造的な設計図です。より広範なコンピュータービジョン(CV)の分野において、これらのアーキテクチャは、生ピクセルデータを意味のある洞察に処理することで、機械がどのように「見る」かを定義します。単純に画像にラベルを付けるだけの基本的な分類モデルとは異なり、オブジェクト検出アーキテクチャは、検出した個々のオブジェクトごとに、クラスラベルと信頼度スコアに加えてバウンディングボックスを出力するように設計されています。この構造設計は、モデルの速度、精度、計算効率を決定し、リアルタイム推論や高精度分析用のモデルを選択する際の重要な要素となります。

アーキテクチャの主要コンポーネント

特定の設計は異なりますが、ほとんどの最新アーキテクチャは、バックボーン、ネック、ヘッドという3つの基本的なコンポーネントを共有しています。バックボーンは主要な特徴抽出器として機能します。これは通常、ImageNetのような大規模データセットで事前学習された畳み込みニューラルネットワーク (CNN)であり、基本的な形状、エッジ、テクスチャの識別を担当します。バックボーンの一般的な選択肢には、ResNetやCSPDarknetがあります。

ネックは、バックボーンを最終出力層に接続します。その役割は、バックボーンの異なる段階からの特徴を混合および結合して、モデルがさまざまなサイズのオブジェクトをdetectできるようにすることです。これはマルチスケール特徴融合として知られる概念です。アーキテクチャは、予測層に渡されるセマンティック情報を豊かにするために、しばしばFeature Pyramid Network (FPN)またはPath Aggregation Network (PANet) を利用します。最後に、detectヘッドはこれらの融合された特徴を処理し、各オブジェクトの特定のクラスと座標位置を予測します。

進化:2段階 vs. 1段階

歴史的に、アーキテクチャは主に2つのカテゴリに分けられていました。2段階検出器は、R-CNNファミリーのように、まずオブジェクトが存在する可能性のある関心領域(RoI)を提案し、次にその領域を2番目のステップでclassifyします。これらは一般的に正確ですが、エッジデバイスには計算負荷が高すぎることがよくあります。

対照的に、ワンステージ検出器は、detectを単純な回帰問題として扱い、画像ピクセルをバウンディングボックスの座標とクラス確率に単一パスで直接マッピングします。YOLO (You Only Look Once)ファミリーによって開拓されたこのアプローチは、リアルタイム性能を可能にすることで業界に革命をもたらしました。現代の進歩は、優れた速度を提供するだけでなく、エンドツーエンドのNMSフリーアーキテクチャを採用したYOLO26のようなモデルに結実しています。Non-Maximum Suppression (NMS)の後処理の必要性を排除することで、これらの新しいアーキテクチャはレイテンシーの変動性を低減し、これは安全性が重視されるシステムにとって極めて重要です。

実際のアプリケーション

アーキテクチャの選択は、業界全体のAIソリューションの成功に直接影響します。

  • 小売オートメーション: スマートスーパーマーケットでは、効率的なワンステージアーキテクチャにより、コンベヤーベルト上やショッピングカート内の製品を即座に認識する自動チェックアウトシステムが可能になり、待ち時間と人為的ミスを削減します。
  • 医療診断: 医用画像解析では、X線やMRIスキャンにおける腫瘍などの異常をdetectするために、高精度アーキテクチャが使用されます。ここでは、アーキテクチャが微細な詳細を保持する能力が、生の処理速度よりも重要となります。

関連用語の区別

検出アーキテクチャを類似のコンピュータビジョンタスクと区別することが重要です。

  • vs. 画像分類: 画像分類アーキテクチャ (VGGやEfficientNetなど) は、画像全体に単一のラベル (例: 「猫」) を割り当てます。これは、猫がどこにいるか、または複数の猫がいるかどうかを教えてくれません。これは検出アーキテクチャの主要な機能です。
  • vs. インスタンスセグメンテーション: 検出がオブジェクトの周りにボックスを配置するのに対し、インスタンスセグメンテーションは、各オブジェクトの正確なピクセル単位の輪郭 (マスク) を識別します。セグメンテーションアーキテクチャは、しばしば検出アーキテクチャの拡張 (例: 検出ヘッドにマスクブランチを追加) です。

Ultralytics実装

現代のフレームワークは、これらのアーキテクチャの複雑さを抽象化し、開発者が最小限のコードで最先端のデザインを活用できるようにしています。を使用して、 ultralytics パッケージでは、事前学習済み〜をロードできます。 YOLO26 モデルで推論をすぐに実行します。データセットを管理し、クラウドでカスタムアーキテクチャをトレーニングしたいチームにとって、 Ultralyticsプラットフォーム MLOpsパイプライン全体を簡素化します。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。