YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

オプティカルフロー

コンピュータビジョンにおけるオプティカルフローのパワーをご覧ください。モーションの推定、ビデオ分析の強化、AIのイノベーションを推進する方法を学びます。

光フローは、コンピュータビジョン(CV)の中核となる概念であり、観察者(カメラなど)とシーンの間の相対的な動きによって引き起こされる、視覚シーン内のオブジェクト、表面、エッジの動きを推定します。これは、2つの連続するビデオフレーム間のピクセルまたは特徴の動きの方向と速度を記述するベクトルのフィールドを計算します。これにより、「どのように」物が動いているかの詳細なローレベルの理解が得られ、多くの動的シーン分析タスクの基礎となります。

オプティカルフローの仕組み

ほとんどのオプティカルフローアルゴリズムの背後にある中心的な仮定は「明るさの恒常性」であり、オブジェクト上の特定の点に対応するピクセルの強度は、短い時間間隔にわたって一定であると想定しています。この明るさを維持する変位を見つけることで、アルゴリズムは動きを推定できます。オプティカルフローを計算するには、主に2つのアプローチがあります。

  • 密なオプティカルフロー: この手法は、画像内のすべてのピクセルに対してモーションベクトルを計算します。これにより、非常に詳細なモーションフィールドが得られ、画像セグメンテーションや複雑なシーンのダイナミクスを理解するなどのタスクに役立ちます。Horn-Schunck法は古典的な例であり、最新の深層学習モデル(RAFTなど)は、最先端のパフォーマンスを提供します。
  • 疎なオプティカルフロー: この手法では、すべてのピクセルを分析する代わりに、フレーム全体で「興味深い」特徴(コーナーやキーポイントなど)の疎なセットを追跡します。ルーカス-カナデ法は、よく知られた疎なアルゴリズムです。このアプローチは計算効率が高く、物体追跡など、特定の点の動きのみが必要なアプリケーションに適しています。

光フローとオブジェクト追跡

光フローと物体追跡は関連していますが、解決する問題は異なります。

  • Optical Flowは、ピクセルの低レベルな動きを表します。その出力は、2つのフレーム間の動きを表すベクトルの集合です。本質的に「オブジェクト」という概念を理解したり、時間の経過とともにその同一性を維持したりすることはありません。
  • 物体追跡は、特定の物体を特定し、複数のフレームにわたってそのパスを追跡し、一貫したIDを割り当てることに焦点を当てた、より高度なタスクです。追跡アルゴリズムは、物体検出モデル(Ultralytics YOLOモデルなど)によって識別された後、次のフレームでの物体の位置を予測するための入力として、オプティカルフローなどの手法をよく使用します。これは、Ultralyticsの物体追跡モードで実際に確認できます。

つまり、オプティカルフローは「ピクセルはどのように動いているか?」に答え、オブジェクト追跡は「あの車はどこに行ったのか?」に答えます。

実際のアプリケーション

オプティカルフローは、ビデオから動きを理解する必要がある多くのアプリケーションにとって重要です。

  • 自動運転システム: 自動運転車ロボットは、視覚オドメトリ(自己運動の推定)、障害物検出、および環境内の物体の相対的な動きの理解のために、オプティカルフローを使用します。例えば、自動運転車が道路に対する速度を推定したり、近くの車両を追跡したりするのに役立ちます。Waymoのような企業は、モーション知覚に大きく依存しています。詳細については、自動運転車におけるAIをご覧ください。
  • 動画圧縮: MPEGのような規格では、オプティカルフローと同様の動き予測技術を使用して、前のフレームに基づいて後続のフレームを予測します。動きベクトルと予測誤差(残差)のみをエンコードすることで、大幅なデータ圧縮が実現されます。
  • アクション認識: ビデオ内の人間のアクションを理解することは、ポーズ推定の重要な部分であり、多くの場合、光フローから導出されたモーションパターンの分析を伴います。これは、スポーツ分析およびスマートフィットネステクノロジーのアプリケーションにとって重要です。
  • 動画の手ぶれ補正: デジタル画像の手ぶれ補正技術では、オプティカルフローを使用してカメラの揺れを推定し、それを補正して、より滑らかな動画を生成できます。この技術は、最新のスマートフォンやカメラで一般的です。
  • 医用画像解析:心エコー検査における心筋の動きや、手術中の臓器の変形など、組織の動きを追跡するために使用されます。関連する進歩については、Radiology: Artificial Intelligence誌などのリソースをご覧ください。
  • ロボティクス: ロボットが周囲の動きに関する視覚的なフィードバックに基づいて、ナビゲート、オブジェクトとのインタラクション、タスクの実行を可能にします。ROSのようなシステムとの統合では、多くの場合、モーション解析が組み込まれます。

ツールと実装

OpenCVのようなライブラリは、古典的なオプティカルフローアルゴリズムの実装を提供し、そのドキュメントには詳細なOpenCVオプティカルフローチュートリアルが含まれています。深層学習アプローチの場合、PyTorchPyTorchの公式サイトをご覧ください)やTensorFlowTensorFlowの公式サイトをご覧ください)のようなフレームワークが一般的に使用され、Hugging Faceのようなプラットフォームを通じて利用可能な事前トレーニング済みモデルを活用することがよくあります。これらのモデルをトレーニングするには、データセットと、FlyingThings3DやSintelデータセットのような、グラウンドトゥルースフロー情報を含む大規模なビデオが必要です。Ultralytics HUBのようなプラットフォームは、関連するコンピュータビジョンタスクのデータセットとモデルトレーニングワークフローの管理に役立ちます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました