マルチオブジェクトトラッキング(MOT)の探求:YOLO11、カルマンフィルター、アピアランスマッチング、最新のデータアソシエーションを使って、ビデオフレーム全体でオブジェクトを追跡し、再識別します。
多オブジェクト追跡(MOT)は、コンピュータビジョン(CV)の基本的なタスクであり、ビデオ内の複数のオブジェクトを検出し、連続するフレーム間でそれらのユニークなアイデンティティを維持することを含む。単一画像内の物体の位置と分類を行う物体検出とは異なり、MOTは時間的な次元を追加します。フレーム内にどのようなオブジェクトがあるか」だけでなく、「各オブジェクトはどこに向かっているか」にも答えます。各オブジェクトに永続的なIDを割り当てることで、MOTは時間の経過に伴う動き、行動、相互作用の分析を可能にし、ダイナミックなシーンの理解に不可欠なものとなる。
MOTプロセスは通常、トラッキング・バイ・検出のパラダイムに従う。まず、YOLO11のようなオブジェクト検出器がビデオの各フレーム内の全てのオブジェクトを識別するために使用される。次に、検出された各オブジェクトに一意のトラッキングIDが割り当てられます。後続のフレームでは、トラッキングアルゴリズムがこれらのオブジェクトの新しい位置を予測し、新しく検出されたオブジェクトと関連付ける。この関連付けは重要なステップであり、いくつかのテクニックに依存している:
Ultralyticsは、これらのトラッキングアルゴリズムをシームレスに統合し、高性能ディテクターによるロバストなマルチオブジェクトトラッキングを簡単に実装することができます。
MOTとオブジェクト検出は密接に関連しているが、目的は異なる。オブジェクト検出は静的でフレームごとの分析であり、バウンディングボックスとクラスラベルのセットを生成する。対照的に、MOTは動的なプロセスであり、時間とともにこれらの検出をリンクさせ、各オブジェクトの連続的な「ストーリー」を作成します。オブジェクト検出は一連のスナップショットを撮ると考えることができますが、マルチオブジェクトトラッキングはこれらのスナップショットをつなぎ合わせてムービーを作成し、オブジェクトがどのように動き、相互作用するかのプロットを明らかにします。
MOTは、さまざまな産業で幅広く実用化されている革新的な技術である。