Action Recognition
アクション認識がビデオ内の行動をどのように識別するかを探ります。Ultralytics YOLO26をポーズ推定に使用し、HARタスクのためのスマートなAIシステムを構築する方法を学びましょう。
アクション認識は、ヒューマン・アクティビティ認識(HAR)とも呼ばれ、ビデオデータ内の対象者が行う特定の行動や動きを特定・分類するコンピュータビジョン (CV)の動的なサブ分野です。従来の物体検出が「画像の中に何があるか?」という問いに答えるのに対し、アクション認識は「時間の経過とともに何が起きているか?」という、より複雑な問いに対処します。静止画ではなくフレームのシーケンスを分析することで、機械学習 (ML)モデルは「歩く」、「サイクリング」、「転倒」、「握手」といった複雑な活動を識別できます。これにより、人間の意図や文脈を理解するインテリジェントなシステムを構築するための重要なコンポーネントとなっています。
Link to this section中心的な概念と技術#
アクションを認識するには、モデルが空間情報(物体や人がどのように見えるか)と時間情報(時間が経過するにつれてどのように動くか)の両方を処理する必要があります。これを実現するために、現代の人工知能 (AI)システムでは、標準的な畳み込みニューラルネットワーク (CNN)を超えた特殊なアーキテクチャが採用されることがよくあります。
- 姿勢推定: モデルが肘、膝、肩など、人体の特定のキーポイントを追跡する強力な手法です。これらのキーポイントの経時的な幾何学的変化は、背景のノイズに関係なく、アクションを分類するための強力なシグナルとなります。
- 時間的モデリング: アルゴリズムはリカレントニューラルネットワーク (RNN)や長短期記憶(LSTM)ネットワークといった構造を利用し、過去のフレームを記憶して将来のアクションを予測します。最近では、ビデオストリームにおける長期的な依存関係を処理できる能力から、ビデオTransformerが普及しています。
- 2ストリームネットワーク: このアプローチでは、空間的特徴(RGBフレーム)と時間的特徴(多くの場合オプティカルフローを使用)を並列ストリームで処理し、データを融合して最終的な分類を行います。
Link to this section実社会での応用#
人間の動きを自動的に解釈する能力は、さまざまな業界に変革をもたらす可能性を秘めており、安全性、効率性、ユーザー体験を向上させます。
- 医療におけるAI: アクション認識は患者モニタリングシステムにとって不可欠です。例えば、介護施設での自動転倒検知を可能にし、患者が倒れた場合にスタッフへ即座に警告します。また、遠隔理学リハビリテーションでも使用されており、AIコーチが患者の運動フォームを分析して、正しく安全に動作が行われているかを確認します。
- スマート監視とセキュリティ: 単なる動作検知を超えて、高度なセキュリティシステムはアクション認識を使用して、喧嘩、万引き、無断侵入といった疑わしい行動を特定しつつ、無害な活動を無視します。これにより誤報が減り、リアルタイムのセキュリティ監視が向上します。
Link to this sectionUltralyticsを使用したアクション分析の実装#
一般的なワークフローでは、まず人やその骨格の姿勢を検出し、次にそれらの関節の動きを分析します。Ultralytics YOLO26モデルは、多くのアクション認識パイプラインの基盤となる初期の姿勢推定ステップに対して、最先端の速度と精度を提供します。
以下の例では、Pythonを使用してビデオフレームから骨格のキーポイントを抽出する方法を示します。
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")Link to this section関連用語の区別#
適切な手法を適用するためには、アクション認識を他の類似したコンピュータビジョンのタスクと区別することが重要です。
- アクション認識 vs オブジェクトトラッキング: オブジェクトトラッキングは、物体や人がフレーム間を移動する際の特定の同一性を維持することに焦点を当てています(例:「人物Aは座標Xにいる」)。アクション認識は、その追跡対象の行動を解釈します(例:「人物Aは走っている」)。
- アクション認識 vs ビデオ理解: アクション認識は特定の身体的行為を識別しますが、ビデオ理解は、ビデオシーン内の物語全体、文脈、因果関係を把握することを含む、より広い概念です。
Link to this section課題と今後のトレンド#
Developing robust action recognition models presents challenges, particularly regarding the need for large, annotated video datasets like Kinetics-400 or UCF101. Labeling video data is significantly more time-consuming than labeling static images. To address this, tools like the Ultralytics Platform help streamline the annotation and training workflow.
さらに、計算効率も重要です。高解像度のビデオをリアルタイムで処理するには、かなりのハードウェアリソースが必要です。業界はEdge AIへとシフトしており、レイテンシと帯域幅の使用量を削減するために、カメラやモバイルデバイス上で直接モデルを実行できるよう最適化が進んでいます。将来的な進歩として、モデルが明示的にトレーニングされていない視点からでもアクションを認識できるようにするモデルの汎化性能の向上が目指されています。






