高速リアルタイムAI向け単段階オブジェクト検出器を探求。Ultralytics エッジAIとデプロイメントにおいて卓越した精度と効率を実現する方法を学びましょう。
ワンステージ物体検出器は、 物体検出タスクを卓越した速度と効率で実行するよう設計された 強力な深層学習アーキテクチャの一種である。 従来の二段階物体検出器が検出プロセスを領域提案とその後の分類という別々のステップに分割するのとは異なり、 ワンステージモデルは単一のパスで画像全体を分析する。 検出を直接回帰問題として捉えることで、これらのネットワークは入力ピクセルから直接バウンディングボックス座標とクラス確率を同時に予測する。この合理化されたアプローチは計算オーバーヘッドを大幅に削減し、リソース制約のあるエッジAIデバイス上でのリアルタイム推論と展開を必要とするアプリケーションにおいて、ワンステージ検出器が最適な選択肢となっている。
単段検出器のアーキテクチャは、通常、特徴抽出の 基盤となる畳み込みニューラルネットワーク(CNN)を中心に構成される。画像がネットワークを通過するにつれ、モデルは空間的・意味的情報を符号化した特徴マップのグリッドを生成する。
初期の実装例であるシングルショット・マルチボックス検出器(SSD)は、 様々なスケールで事前定義されたアンカーボックスに依存して オブジェクトの位置特定を行っていた。しかし、現代的な進歩である Ultralytics YOLO11 や最先端の YOLO26では、アンカーレス設計へと大きく移行している。これらの新しい アーキテクチャは物体の中心位置とサイズを直接予測するため、アンカーに関連する複雑なハイパーパラメータ調整が不要となる。最終出力は位置特定用の座標ベクトルと、 検出された物体に対するモデルの確信度を示す 信頼度スコアで構成される。
これら二つの主要なカテゴリーを区別することは、特定のタスクに適したツールを選択するのに役立ちます:
単段検出器の効率性は、即時応答性が極めて重要となる多様な産業分野での普及を促進してきた:
現代の高レベルAPIを用いれば、ワンステージ検出器の実装は容易である。正確な結果を得るため、モデルは 複数の潜在的なボックスを予測することが多く、これらは 交差率(IoU)の閾値に基づく 非最大抑制(NMS)などの手法でフィルタリングされる。ただし、YOLO26のような新しいエンドツーエンドモデルでは、これがネイティブに処理される。
Python 、最先端のYOLO26モデルを読み込み、画像に対して推論を実行する方法を示しています:
from ultralytics import YOLO
# Load the YOLO26 model, the latest natively end-to-end one-stage detector
model = YOLO("yolo26n.pt")
# Run inference on an image URL to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes and labels
results[0].show()
単段階検出器の進化は、「精度と速度」のトレードオフ克服に焦点を当ててきた。 学習時のクラス不均衡に対処するため、焦点損失などの手法が導入され、モデルが豊富な背景ではなくclassify 集中するよう保証された。さらに、特徴ピラミッドネットワーク(FPN)の統合により、これらのモデルは異なるスケdetect 効果的にdetect 。
今日、研究者や開発者はUltralytics ツールを活用し、カスタムデータセット上でこれらの高度なアーキテクチャを容易に学習させられる。これによりデータアノテーションからモデル展開までのワークフローが簡素化される。農業分野であれ 医療分野であれ、ワンステージ検出器の普及は強力なコンピュータビジョン技術の民主化を推進している。