用語集

物体検出

物体検出のパワーを発見しましょう。YOLO のような最先端のモデルを使って、画像やビデオ内の物体を識別し、位置を特定します。実世界のアプリケーションを探求する!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

物体検出は、コンピュータビジョン(CV)における基本的なタスクであり、画像や動画内の1つ以上の物体の存在、位置、種類を識別することを含む。画像全体に単一のラベル(例えば「猫」)を割り当てる画像分類とは異なり、物体検出は、バウンディングボックスを用いて各物体インスタンスの輪郭を正確に描き、それにクラスラベル(例えば座標x、y、幅、高さにおける「猫」)を割り当てる。この機能により、機械は視覚シーンをより細かく理解することができ、人間の視覚知覚をより忠実に模倣し、環境とのより複雑なインタラクションを可能にする。これは現代の人工知能(AI)アプリケーションの多くを支える中核技術である。

物体検出の仕組み

物体検出は通常、物体の分類(「どの」物体が存在するかを決定する)と物体の定位(通常はバウンディングボックス座標を介して、物体が「どこに」あるかを決定する)という2つのコアタスクを組み合わせている。最新の物体検出システムは、ディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)に大きく依存している。これらのネットワークは、人気のあるCOCOデータセットや Open Images V7などの大規模な注釈付きデータセットで学習され、さまざまなオブジェクトクラスに関連する視覚的特徴やパターンを学習する。

動作中(推論として知られる)、学習済みモデルは入力画像またはビデオフレームを処理する。モデルは、各々がバウンディングボックスで表される潜在的なオブジェクトのリスト、予測されるクラスラベル(例えば、「車」、「人」、「犬」)、および検出に関するモデルの確信度を示す確信度スコアを出力します。非最大抑制(NMS)のような技法は、同じ物体に対する冗長で重複するボックスを削除することによって、これらの出力を洗練するためによく使用されます。これらのモデルの性能は通常、Intersection over Union (IoU)mean Average Precision (mAP)のようなメトリクスを用いて評価されます。

物体検出と関連タスクの比較

物体検出を他の関連するコンピュータ・ビジョン・タスクと区別することは重要である:

  • 画像分類:画像全体に単一のラベルを割り当てます(例:「この画像には犬が写っています」)。オブジェクトの位置は特定しない。
  • 画像分割:画像内の各ピクセルを分類し、オブジェクト境界の詳細なマップを作成します。これはオブジェクト検出のバウンディングボックスよりも細かい。
    • セマンティック・セグメンテーション:各ピクセルにクラスラベルを割り当てる(例えば、「車」に属するピクセルはすべて「車」とラベル付けされる)。同じクラスの異なるインスタンスを区別しない。
    • インスタンス分割:各ピクセルにクラスラベルを割り当て同じクラスの個々のインスタンス(例えば、「車1」、「車2」)を区別する。これは検出とセグメンテーションを組み合わせたものである。
  • トラッキング:連続するビデオフレームからオブジェクトを検出し、各オブジェクトに一意のIDを割り当てて、時間の経過とともにその動きを追跡する。これは、オブジェクト検出の上に構築されます。

物体検出モデルの種類

物体検出モデルは一般的に2つの主要なカテゴリに分類され、主にそのアプローチと速度と精度のトレードオフが異なる:

  • 二段式物体検出器:これらのモデルは、まず物体が存在する可能性のある関心領域(ROI)を提案し、次にその領域内の物体を分類する。例としてR-CNNファミリー(Fast R-CNN、Faster R-CNN)がある。これらのモデルは高い精度を達成することが多いが、処理速度が遅くなる傾向がある。
  • 1段式物体検出器:これらのモデルは、別の領域提案ステップを必要とせず、1回のパスで入力画像から直接バウンディングボックスとクラス確率を予測します。例としては Ultralytics YOLO(You Only Look Once)シリーズ、SSD(Single Shot MultiBox Detector)、RetinaNetなどがある。これらのモデルは一般的に高速で、リアルタイムの推論に適しています。 YOLO11のようなモデルがこのギャップを効果的に埋めている。アンカーなし検出器のような新しいアプローチは、1段階のプロセスをさらに単純化します。さまざまなYOLO モデルと、以下のような他のアーキテクチャとの比較を調べることができます。 RT-DETR.

実世界での応用

物体検出は、さまざまな産業で数多くのアプリケーションを可能にする基盤技術である:

  1. 自律システム: 自動運転車や ロボット工学に不可欠で、歩行者、他の車両、障害物、交通標識、相互作用のための特定のアイテムを検出することで、車両やロボットが周囲を認識できるようにする。テスラや ウェイモのような企業は、ロバストな物体検知に大きく依存している。
  2. セキュリティと監視:侵入者の検知、群衆の監視(Vision AI in Crowd Management)、放置された物体の識別、公共スペースや私有地における監視効率の向上など、セキュリティ警報システムに使用。
  3. リテール・アナリティクス:自動レジシステム、AIによる在庫管理、棚監視(在庫切れの商品の検出)、顧客動線パターンの分析などのアプリケーションを強化。
  4. ヘルスケア 医療画像解析に応用され、X線、CTスキャン、MRIの腫瘍(腫瘍検出のためのYOLO11 使用)や病変のような異常を検出し、放射線科医の診断を支援する(放射線学:人工知能)。
  5. 農業:害虫、病気、雑草の検出、果実の計数(農業におけるコンピュータ・ビジョン)、作物の健康状態の監視(農業ソリューションにおけるAI)などの精密農業技術を可能にする。
  6. 製造業:組立ラインにおける製品の欠陥検出による品質管理(製造における品質検査)、危険区域の監視による安全確保、ロボット作業の自動化などに使用される。

ツールとトレーニング

物体検出モデルの開発と展開には、さまざまなツールとテクニックが必要だ。人気のあるディープラーニングフレームワーク PyTorchTensorFlowなどの一般的なディープラーニング・フレームワークが基盤となるライブラリを提供している。OpenCVのようなコンピュータビジョンライブラリは、必要不可欠な画像処理機能を提供する。

Ultralytics 最先端の技術を提供する Ultralytics YOLOモデルを提供しています。 YOLOv8YOLO11を含むYOLOモデルは、スピードと精度のために最適化されています。Ultralytics HUBプラットフォームはワークフローをさらに簡素化し、データセットの管理、カスタムモデルのトレーニングハイパーパラメータのチューニングモデルのデプロイメントを容易にするツールを提供します。効果的なモデルトレーニングは、データ増強戦略やImageNetのようなデータセットから事前にトレーニングされた重みを使用する転移学習のようなテクニックから恩恵を受けることがよくあります

すべて読む