Yolo 深圳
深セン
今すぐ参加
用語集

アクション認識

行動認識(Human Activity Recognition)を探求する:ヘルスケア、セキュリティ、スポーツのためのビデオ、ポーズ推定とディープラーニングはどのように人間の行動をdetect します。

動作認識(Human Activity Recognition:HARとも呼ばれる)は、コンピュータビジョン(CV)の専門分野の一つであり、動画データ内の特定の動きや行動を識別・分類することに焦点を当てています。標準的な画像認識が静止画フレームを分析してdetect に対し、動作認識は第四の次元である「時間」を取り入れ、動的な事象を解釈します。高度な人工知能(AI)システムは、一連のフレームを処理することで、歩行、手を振る、転倒、特定のスポーツ技法の遂行といった複雑な行動を区別できる。この能力は、人間の意図を理解し、現実世界の環境で安全に相互作用できる知能システムを構築するために不可欠である。

中核的なメカニズムと技術

動作を正確に識別するためには、 深層学習(DL)モデルは主に2種類の特徴を抽出し統合する必要がある:空間的特徴と時間的特徴である。空間的特徴は、人物や物体の存在など、シーンの視覚的外観を捉えるもので、通常は畳み込みニューラルネットワーク(CNN)を用いて抽出される。 時間的特徴は、これらの要素が時間とともにどのように変化するかを記述し、 「座る」動作と「立つ」動作を区別するために必要な文脈を提供する。

現代的な手法では、高い精度を達成するために多段階パイプラインが頻繁に利用される:

  • 姿勢推定この技術は 人体の骨格構造をマッピングし、肘、膝、肩などの特定の キーポイントをトラッキングする。これらの点間の幾何学的関係は、 背景の雑音や照明条件に依存せず、動作を分類するための 堅牢な信号を提供する。
  • 時系列モデリング:データシーケンスは、時系列分析用に設計されたアーキテクチャを用いて処理される。 例: リカレントニューラルネットワーク(RNN) または ロングショートタームメモリー(LSTM)ネットワーク 近年、ビデオストリームにおける長距離依存性をモデリングする標準手法として、ビデオトランスフォーマーが主流となっている。
  • モーション機能:アルゴリズムはしばしば オプティカルフローを組み込み、フレーム間のピクセル移動track 速度track 明示的にtrack 。これにより、空間分析だけでは見逃される可能性のある微妙な動きのパターンをモデルが識別できるようになります。

実際のアプリケーション

人間の動作解釈を自動化する技術は、多様な産業分野で急速な普及を推進している。 物理的な業務フローのデジタル化と安全性の向上を求める企業が増える中、 世界的な人間の動作認識市場は拡大を続けている。

医療と患者の安全

医療分野におけるAIでは、行動認識技術が自動化された患者モニタリングに不可欠である。病院や介護施設でのdetect 、看護スタッフへ即時アラートを発するシステムが構築可能だ。さらにコンピュータビジョン技術は、患者の運動フォームをリアルタイム解析することで遠隔リハビリテーションを実現。正しい動作を保証し、回復促進と負傷防止に寄与する。

スポーツ・アナリティクス

コーチや放送関係者は スポーツ分野でAIを活用し 選手のパフォーマンスを分解分析する。動作認識アルゴリズムは試合映像内のイベント(バスケットボールのシュート、テニスのサーブ、サッカーのパスなど)を自動タグ付けし、詳細な統計分析を可能にする。このデータは特定の選手動作パターンに基づく技術向上や戦略立案に役立つ。

関連概念の区別

アクション認識をコンピュータ・ビジョンの類似用語と区別し、適切なツールを選択することが重要である。 適切なツールを選択することが重要です。

  • 動作認識 vs. 映像理解 映像理解 行動認識が特定の身体的活動(例えば「ドアを開ける」)を識別することに焦点を当てるのに対し、映像理解は文脈全体、物語全体、因果関係を理解することを目的とする、より広い分野である、 映像理解とは、映像内の文脈、物語、因果関係全体を理解することを目的とした、より広い分野である。 例えば、「人が犬を外に出すためにドアを開けている」など)。
  • 動作認識と 物体追跡: 物体追跡は、フレーム間で物体や人物の同一性を維持すること(一意のIDを割り当てること)を目的とする動作認識は、追跡対象の行動を分析する。多くの場合、複数人物が存在する場面で動作を認識するには、追跡が前提となるステップである。

行動分析の実施

多くの動作認識パイプラインにおける基礎的なステップは、骨格データの抽出である。以下のPython 、 ultralytics ライブラリと YOLO26 姿勢のキーポイントを抽出する。これらは 下流の動作分類のための基礎的なデータ層として機能する。

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

課題と今後の方向性

これらのシステムの導入には課題があり、膨大な量のラベル付き学習データが必要であることや、動画処理の計算コストなどが挙げられる。Kinetics-400のようなベンチマークデータセットは、モデル性能を評価する標準となっている。

ハードウェアの進化に伴い、エッジAIへの移行が進んでいます。 これにより、モデルをカメラやモバイルデバイス上で直接実行可能となり、 動画データをクラウドに送信する必要がないため、 低遅延かつ優れたプライバシー保護を実現するリアルタイム推論が可能となります。 今後の開発では、これらの複雑な認識タスクを支える基盤となる検出および姿勢推定エンジンの 速度と精度をさらに最適化することを目指しています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加