YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

One-Stage Object Detectors

高速リアルタイムAIのためのワンステージobject detect器を探ります。Ultralytics YOLO26がEdge AIとデプロイメントにおいて、いかに優れたaccuracyとefficiencyを実現するかを学びましょう。

1ステージオブジェクト検出器は、卓越した速度と効率でオブジェクト検出タスクを実行するように設計された、強力なディープラーニングアーキテクチャのクラスです。領域提案とそれに続く分類という別々のステップに検出プロセスを分割する従来の2ステージオブジェクト検出器とは異なり、1ステージモデルは画像全体をシングルパスで分析します。検出を直接回帰問題として捉えることで、これらのネットワークは入力ピクセルからバウンディングボックス座標とクラス確率を同時に予測します。この合理化されたアプローチは計算オーバーヘッドを大幅に削減し、1ステージ検出器をリアルタイム推論やリソース制約のあるエッジAIデバイスへのデプロイを必要とするアプリケーションにとって好ましい選択肢としています。

中核的運営原則

ワンステージ検出器のアーキテクチャは通常、特徴抽出のためのバックボーンとして機能する畳み込みニューラルネットワーク (CNN)を中心に構築されます。画像がネットワークを通過すると、モデルは空間情報と意味情報をエンコードする特徴マップのグリッドを生成します。

Single Shot MultiBox Detector (SSD)のような初期の実装は、オブジェクトを局所化するために、さまざまなスケールで事前に定義されたアンカーボックスに依存していました。しかし、Ultralytics YOLO11や最先端のYOLO26のような現代の進歩は、主にアンカーフリー設計へと移行しています。これらの新しいアーキテクチャは、オブジェクトの中心とサイズを直接予測するため、アンカーに関連する複雑なハイパーパラメータチューニングの必要がなくなります。最終出力は、局所化のための座標ベクトルと、detectされたオブジェクトに関するモデルの確実性を示す信頼度スコアで構成されます。

1段検出器と2段検出器の比較

これら二つの主要なカテゴリーを区別することは、特定のタスクに適したツールを選択するのに役立ちます:

  • ワンステージ物体検出器: Ultralytics YOLOシリーズのようなモデルは、低い推論レイテンシを優先します。これらは速度に最適化されており、ビデオストリームやモバイルアプリケーションに最適です。最近のイテレーションでは、精度ギャップが大幅に縮小され、リアルタイム性能を維持しながら、より低速なモデルの精度に匹敵するか、それを上回ることがよくあります。
  • 二段階物体検出器:R-CNNファミリーなどのアーキテクチャは、まず領域提案を生成し、その後classify 。歴史的に、小さい物体や遮蔽された物体に対して高い精度を提供してきたが、計算コストが高く、一般的に処理速度が遅いため、時間制約のあるシナリオでの使用が制限される。

実際のアプリケーション

ワンステージ検出器の効率性により、即時応答性が重要となる多様な産業分野で広く採用されています。

  • 自律走行車: 自律走行車は、歩行者、交通標識、その他の車両を識別するために、ビデオフィードの即時処理を必要とします。この分野のリーダーは、複雑な環境を安全に走行するために高速ビジョンシステムに依存しており、detectと並行してobject trackingをしばしば利用しています。
  • スマートマニュファクチャリング: 高速組立ラインでは、これらのモデルは欠陥をdetectしたり、部品の配置をリアルタイムで検証したりすることで、自動品質管理を実行します。これにより、ボトルネックのない生産効率が保証され、多くの場合、容易なデプロイのためにUltralytics Platformを介して統合されます。
  • エッジAIとIoT: 1ステージ検出器はその軽量性により、Raspberry PiNVIDIA JetsonのようなIoTデバイスに最適であり、常時クラウド接続を必要とせずにリモートカメラやドローンに高度なインテリジェンスをもたらします。

Pythonによる技術的実装

最新の高レベルAPIを使用すれば、one-stage detectorの実装は簡単です。正確な結果を保証するため、モデルはしばしば複数の候補ボックスを予測し、これらはNon-Maximum Suppression (NMS)などの手法を用いて、Intersection over Union (IoU)の閾値に基づいてフィルタリングされます。ただし、YOLO26のような新しいエンドツーエンドモデルはこれをネイティブに処理します。

Python 、最先端のYOLO26モデルを読み込み、画像に対して推論を実行する方法を示しています:

from ultralytics import YOLO

# Load the YOLO26 model, the latest natively end-to-end one-stage detector
model = YOLO("yolo26n.pt")

# Run inference on an image URL to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the first result with bounding boxes and labels
results[0].show()

現代のワンステージアーキテクチャの利点

ワンステージ検出器の進化は、「精度と速度」のトレードオフを克服することに焦点を当ててきました。Focal Lossのような技術は、学習中のクラス不均衡に対処するために導入され、モデルが豊富な背景ではなく、classifyが難しい例に焦点を当てることを保証します。さらに、Feature Pyramid Networks (FPN)の統合により、これらのモデルは異なるスケールでオブジェクトをdetectすることを効果的に可能にします。

今日、研究者や開発者は、Ultralytics Platformのようなツールを使用して、これらの高度なアーキテクチャをカスタムデータセットで簡単に学習させることができます。これは、データアノテーションからモデル展開までのワークフローを簡素化します。農業であれヘルスケアであれ、ワンステージdetectorsのアクセシビリティは、強力なコンピュータービジョン機能を民主化しています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。