物体検出のパワーを発見しましょう。YOLO のような最先端のモデルを使って、画像やビデオ内の物体を識別し、位置を特定します。実世界のアプリケーションを探求する!
物体検出は、コンピュータビジョン(CV)における基本的なタスクであり、画像や動画内の1つ以上の物体の存在、位置、種類を識別することを含む。画像全体に単一のラベル(例えば「猫」)を割り当てる画像分類とは異なり、物体検出は、バウンディングボックスを用いて各物体インスタンスの輪郭を正確に描き、それにクラスラベル(例えば座標x、y、幅、高さにおける「猫」)を割り当てる。この機能により、機械は視覚シーンをより細かく理解することができ、人間の視覚知覚をより忠実に模倣し、環境とのより複雑なインタラクションを可能にする。これは現代の人工知能(AI)アプリケーションの多くを支える中核技術である。
物体検出は通常、物体の分類(「どの」物体が存在するかを決定する)と物体の定位(通常はバウンディングボックス座標を介して、物体が「どこに」あるかを決定する)という2つのコアタスクを組み合わせている。最新の物体検出システムは、ディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)に大きく依存している。これらのネットワークは、人気のあるCOCOデータセットや Open Images V7などの大規模な注釈付きデータセットで学習され、さまざまなオブジェクトクラスに関連する視覚的特徴やパターンを学習する。
動作中(推論として知られる)、学習済みモデルは入力画像またはビデオフレームを処理する。モデルは、各々がバウンディングボックスで表される潜在的なオブジェクトのリスト、予測されるクラスラベル(例えば、「車」、「人」、「犬」)、および検出に関するモデルの確信度を示す確信度スコアを出力します。非最大抑制(NMS)のような技法は、同じ物体に対する冗長で重複するボックスを削除することによって、これらの出力を洗練するためによく使用されます。これらのモデルの性能は通常、Intersection over Union (IoU)やmean Average Precision (mAP)のようなメトリクスを用いて評価されます。
物体検出を他の関連するコンピュータ・ビジョン・タスクと区別することは重要である:
物体検出モデルは一般的に2つの主要なカテゴリに分類され、主にそのアプローチと速度と精度のトレードオフが異なる:
物体検出は、さまざまな産業で数多くのアプリケーションを可能にする基盤技術である:
物体検出モデルの開発と展開には、さまざまなツールとテクニックが必要だ。人気のあるディープラーニングフレームワーク PyTorchや TensorFlowなどの一般的なディープラーニング・フレームワークが基盤となるライブラリを提供している。OpenCVのようなコンピュータビジョンライブラリは、必要不可欠な画像処理機能を提供する。
Ultralytics 最先端の技術を提供する Ultralytics YOLOモデルを提供しています。 YOLOv8と YOLO11を含むYOLOモデルは、スピードと精度のために最適化されています。Ultralytics HUBプラットフォームはワークフローをさらに簡素化し、データセットの管理、カスタムモデルのトレーニング、ハイパーパラメータのチューニング、モデルのデプロイメントを容易にするツールを提供します。効果的なモデルトレーニングは、データ増強戦略や、ImageNetのようなデータセットから事前にトレーニングされた重みを使用する転移学習のようなテクニックから恩恵を受けることがよくあります。