YOLOのような最先端のモデルを使って、画像やビデオ内のオブジェクトを識別し、位置を特定します。実世界での応用例をご覧ください!
物体検出は、コンピュータビジョン(CV)における基本的なタスクであり、画像やビデオ内の1つ以上の物体の存在、位置、種類を識別することを含む。画像全体に単一のラベル(例えば「猫」)を割り当てる画像分類とは異なり、物体検出は、バウンディングボックスを用いて各物体インスタンスの輪郭を正確に描き、それにクラスラベル(例えば座標x、y、幅、高さにおける「猫」)を割り当てる。この機能により、機械は視覚シーンをより細かく理解することができ、人間の視覚認識をより忠実に模倣し、環境とのより複雑なインタラクションを可能にする。これは、現代の人工知能(AI)アプリケーションの多くを支える中核技術である。
物体検出は通常、物体の分類(「どの」物体が存在するかを決定すること)と物体の定位(通常、バウンディングボックス座標を介して、物体が「どこに」あるかを決定すること)の2つのコアタスクを組み合わせている。最新の物体検出システムは、ディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)に大きく依存している。これらのネットワークは、一般的なCOCOデータセットや Open Images V7などの大規模な注釈付きデータセットで学習され、さまざまなオブジェクトクラスに関連する視覚的特徴やパターンを学習する。
動作中(推論として知られる)、学習済みモデルは入力画像またはビデオフレームを処理する。モデルは、各々がバウンディングボックスで表される潜在的なオブジェクトのリスト、予測されるクラスラベル(例えば、「車」、「人」、「犬」)、および検出に関するモデルの確信度を示す確信度スコアを出力します。非最大抑制(NMS)のような技法は、同じ物体に対する冗長で重複するボックスを除去することによって、これらの出力を洗練するためにしばしば使用される。これらのモデルの性能は通常、Intersection over Union (IoU)やmean Average Precision (mAP)のようなメトリクスを用いて評価されます。
物体検出を他の関連するコンピュータ・ビジョン・タスクと区別することは重要である:
物体検出モデルは一般的に2つの主要なカテゴリに分類され、主にそのアプローチと速度と精度のトレードオフが異なる:
物体検出は、さまざまな産業で数多くのアプリケーションを可能にする基礎技術である:
物体検出モデルの開発とデプロイには、様々なツールとテクニックが必要だ。PyTorchや TensorFlowのような人気のあるディープラーニングフレームワークは、基盤となるライブラリを提供する。OpenCVのようなコンピュータビジョンライブラリは、必要不可欠な画像処理機能を提供する。
Ultralyticsは、スピードと精度のために最適化されたYOLOv8と YOLO11を含む最先端のUltralytics YOLOモデルを提供します。Ultralytics HUBプラットフォームは、ワークフローをさらに簡素化し、データセットの管理、カスタムモデルのトレーニング、ハイパーパラメーターのチューニングの実行、モデルの展開を容易にするツールを提供します。効果的なモデルトレーニングは、データ増強戦略や、ImageNetのようなデータセットから事前に訓練された重みを使用する転移学習のようなテクニックから恩恵を受けることがよくあります。