YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

One-Stage Object Detectors

YOLOのような一段階物体検出器のスピードと効率をご覧ください。ロボティクスや監視のようなリアルタイムアプリケーションに最適です。

One-stage object detectorは、コンピュータビジョンにおける速度と効率のために設計された深層学習モデルの一種です。オブジェクトのローカライズと分類を、ニューラルネットワークの単一のパスで実行します。これは、タスクを2つの明確なステップに分割する、より複雑なtwo-stage object detectorとは対照的です。物体検出を単純な回帰問題として扱うことで、one-stageモデルは画像の特徴から直接、バウンディングボックスとクラスの確率を予測し、非常に高速で、リアルタイム推論を必要とするアプリケーションに適しています。

One-Stage Detectorの仕組み

シングルステージ検出器は、単一の畳み込みニューラルネットワーク(CNN)を介して画像全体を一度に処理します。ネットワークのアーキテクチャは、いくつかのタスクを同時に実行するように設計されています。まず、ネットワークのバックボーン特徴抽出を実行し、さまざまなスケールで入力画像の豊富な表現を作成します。これらの特徴は、特殊な検出ヘッドに供給されます。

このヘッドは、一連のバウンディングボックス、オブジェクトの存在を示す各ボックスの信頼性スコア、および各オブジェクトが特定のクラスに属する確率を予測します。このプロセス全体が1回のフォワードパスで実行されるため、高速処理が可能です。Non-Maximum Suppression(NMS)などの手法を使用して、冗長で重複する検出を除外し、最終的な出力を生成します。モデルは、局在化損失(バウンディングボックスの精度)と分類損失(クラス予測の精度)を組み合わせた特殊な損失関数を使用してトレーニングされます。

Two-Stage Object Detectorとの比較

主な違いは、その方法論にあります。One-Stage検出器は速度とシンプルさを重視して構築されていますが、Two-Stage検出器は精度を優先していますが、この区別は新しいモデルでは薄れつつあります。

  • シングルステージ検出器: YOLO (You Only Look Once)ファミリーなどのこれらのモデルは、1つのステップで検出を実行します。一般的に高速でアーキテクチャがシンプルなため、エッジデバイスやリアルタイムアプリケーションに最適です。アンカーフリー検出器の開発により、パフォーマンスとシンプルさがさらに向上しました。
  • Two-Stage Object Detectors: R-CNNシリーズとその高速なバリアントのようなモデルは、まずオブジェクトが存在する可能性のある領域提案のスパースなセットを生成します。第2段階では、別のネットワークがこれらの提案を分類し、バウンディングボックスの座標を調整します。この2段階のプロセスは、特に小さなオブジェクトに対して、通常より高い精度をもたらしますが、推論速度が大幅に低下します。Mask R-CNNは、このアプローチをインスタンスセグメンテーションに拡張した有名な例です。

主要なアーキテクチャとモデル

いくつかの影響力のあるOne-Stageアーキテクチャが開発されており、それぞれが独自の貢献をしています。

  • YOLO(You Only Look Once): 画期的な2015年の論文で紹介されたYOLOは、物体検出を単一の回帰問題として捉えました。YOLOv8や最先端のUltralytics YOLO11を含む後続のバージョンでは、速度と精度のバランスが継続的に改善されています。
  • Single Shot MultiBox Detector (SSD): SSDアーキテクチャは、マルチスケール特徴マップを使用してさまざまなサイズのオブジェクトを検出し、オリジナルのYOLOよりも精度を向上させる、もう1つの先駆的なシングルステージモデルでした。
  • RetinaNet: このモデルは、高密度検出器のトレーニング中に発生する極端なクラスの不均衡に対処するために設計された新しい損失関数であるFocal Lossを導入し、当時の多くの2段階検出器の精度を上回ることを可能にしました。
  • EfficientDet: Google Researchによって開発されたモデルのファミリーで、複合スケーリング法と新しいBiFPNフィーチャーネットワークを使用して、スケーラビリティと効率に焦点を当てています。YOLO11とEfficientDetの比較など、他のモデルとの比較を確認できます。

実際のアプリケーション

ワンステージ検出器の速度と効率により、数多くのAI主導のアプリケーションで不可欠なものとなっています。

  1. 自動運転車: 自動運転車向けAIでは、ワンステージ検出器は、リアルタイムで環境を認識するために不可欠です。歩行者、自転車、他の車両、交通標識を即座に識別して追跡し、車両のナビゲーションシステムが重要な意思決定を瞬時に行うことを可能にします。Teslaのような企業は、Autopilotシステムに同様の原則を利用しています。
  2. スマートセキュリティと監視: シングルステージモデルは、ビデオフィードを分析して不正侵入や不審な行動などの脅威を検出することにより、最新のセキュリティシステムを強化します。たとえば、キュー管理のためにキュー内の人数をカウントしたり、空港で放置された荷物をリアルタイムで識別したりするようにシステムをトレーニングできます。

利点と制限事項

One-Stage検出器の主な利点は、その驚異的な速度であり、リアルタイム物体検出を、NVIDIA JetsonRaspberry Piなどの低電力エッジAIデバイスを含む、さまざまなハードウェアで実現します。また、よりシンプルなエンドツーエンドのアーキテクチャにより、PyTorchTensorFlowなどのフレームワークを使用して、トレーニングとデプロイが容易になります。

従来、主な制限事項は、特に非常に小さいオブジェクトや大きく遮られたオブジェクトを扱う場合に、2段階検出器と比較して精度が低いことでした。ただし、YOLO11などのモデルに見られるように、モデルアーキテクチャとトレーニング手法の最近の進歩により、このパフォーマンスのギャップは大幅に縮まり、広範なコンピュータビジョンタスクに対して速度と高い精度の強力な組み合わせを提供しています。Ultralytics HUBのようなプラットフォームは、特定のニーズに合わせてカスタムモデルをトレーニングするプロセスをさらに簡素化します。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました