動画内のアクションやイベントを解釈する高度なAIであるVideo Understandingについて解説します。その仕組みと、自動運転やスマートセキュリティにおけるアプリケーションについて学びましょう。
ビデオ理解は、コンピュータビジョン(CV)と コンピュータ・ビジョン(CV)と 人工知能 機械が時間をかけて視覚データを解釈・分析できるようにすることに重点を置いています。標準的な 静的なスナップショットを分析する スナップショットを分析する標準的な画像認識とは異なり シーン内の時間的ダイナミクス、文脈、因果関係を理解するために、一連のフレームを処理する。 を理解する。この機能により、システムはどのようなオブジェクトが存在するかを識別するだけでなく 何が起こっているかを推測し、将来の行動を予測し、視覚入力の背後にある「ストーリー」を理解することができる。 視覚入力の背後にある「ストーリー」を理解することができる。この総合的なアプローチは、以下のような物理世界と自然に相互作用するシステムを構築するために不可欠である。 物理的世界と自然に相互作用するシステムを構築するために不可欠である。 交通をナビゲートする自律走行車からスマート 家庭の安全を監視するスマート・アシスタントまで、物理的世界と自然に相互作用するシステムを作るためには、この総合的アプローチが不可欠である。
ビデオ理解の背後にある技術的アーキテクチャは、静的オブジェクト検出よりもはるかに複雑である。 よりもはるかに複雑である。動画を効果的に処理するには ディープラーニングモデルは同時に 空間的特徴(オブジェクトの外観)と時間的特徴(それらのオブジェクトがどのように動き、変化するか)を同時に処理しなければならない。
最近のシステムは、多段パイプラインを採用することが多い:
このプロセスは、多くの場合 オプティカルフロー技術によってサポートされることが多い。 フレーム間のベクトルを明示的に追跡し、動きのパターンを識別するモデルの能力を向上させる。エッジコンピューティングの進歩により エッジコンピューティングの進歩により、これらの計算集約的なタスクは タスクをデバイス上でローカルに実行し リアルタイム推論が可能になります。
その範囲を理解するためには、ビデオ理解と関連するコンピュータビジョンのタスクを区別することが重要である:
ダイナミックなシーンを理解する能力は、主要産業全体のイノベーションの原動力となる:
ビデオ理解の基礎となるステップは、信頼性の高いオブジェクトトラッキングです。以下の例では を使用してトラッキングを実装する方法を示します。 Ultralytics YOLO11モデルを使用してトラッキングを実装する方法を示します。これにより は、より高度な分析に必要な時間的連続性を確立する。将来的には YOLO26のような次期モデルでは、これらの機能をさらに統合し より高速で、エンド・ツー・エンドな映像処理を目指している。
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
大きな進歩にもかかわらず、映像の理解は、高い計算コストや、映像の取り扱いの難しさといった課題に直面している。 計算コストの高さや、物体の オクルージョン を扱うことの難しさといった課題がある。研究者たちは、次のような課題に積極的に取り組んでいる。 待ち時間を短縮する効率的なモデル・アーキテクチャと 自己教師あり学習 に取り組んでいる。
のようなツール NVIDIA TensorRTおよび ONNXが頻繁に使用されている。 がよく使われている。この分野が進歩するにつれ、以下のようなマルチモーダルAIの統合が進むことが予想される。 マルチモーダルAIの統合が進むと予想される。 より深い理解のために。

