YOLOのような最先端のモデルを使って、画像やビデオ内のオブジェクトを識別し、位置を特定します。実世界での応用例をご覧ください!
物体検出は、コンピュータビジョン(CV)の基本的なタスクであり、画像やビデオ内の1つまたは複数の物体を識別し、位置を特定することを含む。その目的は、物体が何であるかを分類するだけでなく、通常、それぞれの物体の周囲にバウンディングボックスを描くことによって、その位置を決定することである。この技術は、多くの高度な人工知能(AI)アプリケーションの礎石として機能し、機械が物理的な周囲環境を高度に理解して解釈することを可能にする。
物体検出モデルは通常、ディープラーニング(DL)、特に畳み込みニューラルネットワーク(CNN)を使って構築される。このプロセスでは、画像をネットワークに入力し、検出された物体のリストを出力する。ネットワークは、それぞれにクラスラベル(「人」、「車」、「犬」など)、信頼度スコア、バウンディングボックスの座標を付ける。
すなわち、入力画像から特徴を抽出するためのバックボーンと、バウンディングボックスとクラスを予測するための検出ヘッドである。これらのアーキテクチャは、しばしば1段検出器と2段検出器に分類される。
物体検出を他の関連するコンピュータ・ビジョン・タスクと区別することは重要である:
物体検出は、多くの産業で使用されている革新的な技術である。
オブジェクト検出モデルの開発と展開には、ツールやテクニックの豊富なエコシステムが関わっている。