YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

ポーズ推定とは?どこで使用できますか?

Abirami Vina

5分で読めます

2025年5月7日

姿勢推定の仕組み、その現実世界のアプリケーション、およびUltralytics YOLO11のようなモデルが機械による身体の動きと姿勢の解釈をどのように可能にするかを学びます。

誰かがうなだれていたり、肩を後ろに引いてまっすぐに立っていたりするのを見ると、姿勢が悪いか自信があるかがすぐにわかります。誰もあなたにそれを説明する必要はありません。それは、私たちが時間をかけて、自然にボディランゲージを解釈することを学んできたからです。 

経験と観察を通じて、私たちの脳は人間を含むさまざまな物体の姿勢を認識することに非常に長けています。人工知能(AI)と、機械が世界からの視覚情報を解釈できるようにするコンピュータビジョンの最近の進歩のおかげで、機械もこの能力を学習し、再現し始めています。

姿勢推定は、画像やビデオを見て、人やオブジェクトの位置と向きを把握するのに役立つコンピュータビジョンタスクです。関節や手足などの体のキーポイントを特定して、人や物がどのように動いているかを理解します。 

この技術は、フィットネス、ヘルスケア、アニメーションなどの分野で広く使用されています。たとえば、職場の環境では、従業員の姿勢を監視し、安全と健康のイニシアチブをサポートするために使用できます。Ultralytics YOLO11のようなコンピュータビジョンモデルは、人間のポーズをリアルタイムで推定することにより、これを可能にします。

図1. YOLO11を使用して作業者の姿勢を監視する例。

この記事では、ポーズ推定とその仕組み、そして実際に活用されている事例について詳しく見ていきます。それでは始めましょう!

ポーズ推定の進化

姿勢推定の研究は、1960年代後半から70年代に始まりました。長年にわたり、このコンピュータビジョンタスクへのアプローチは、基本的な数学や幾何学から、人工知能によるより高度な手法へと移行してきました。

当初、技術は固定されたカメラアングルと既知の基準点に依存していました。その後、3Dモデルと特徴マッチングを含むように進化しました。今日では、YOLO11のような深層学習モデルは、画像やビデオからリアルタイムで体の位置を検出できるため、姿勢推定がこれまで以上に高速かつ正確になっています。

テクノロジーが向上するにつれて、研究者は、さまざまなオブジェクト、特に人間や動物のポーズを監視および追跡できることの潜在的なアプリケーションに注目しました。ポーズ推定は、AIツールがこれまで不可能だった方法で姿勢と動きを理解および測定できるようにするため、特に重要です。 

例えば、コンピュータがハンズフリー操作のためにジェスチャーを認識したり、アスリートの動きを分析してパフォーマンスを向上させたり、ビデオゲームでリアルなアニメーションを実現したり、患者の回復状況を追跡してヘルスケアをサポートしたりできます。

他のコンピュータビジョンタスクとどう違いますか?

姿勢推定は、物体検出やインスタンスセグメンテーションなどの他のコンピュータビジョンタスクとは異なります。これらのタスクは主に、画像内のオブジェクトを識別して特定することに焦点を当てています。 

たとえば、物体検出では、人、車両、動物などのアイテムの周囲にバウンディングボックスを描画して、それらの存在と位置を示します。インスタンスセグメンテーションは、各オブジェクトの正確な形状をピクセルレベルでアウトライン化することにより、これをさらに一歩進めます。

しかし、これらの手法はどちらも、主にオブジェクトが何であるか、どこにあるかに関係しており、オブジェクトがどのように配置されているか、または何をしているかについての情報を提供しません。そこで、姿勢推定が重要になります。 

姿勢推定は、肘、膝、さらには尾など、身体の主要なポイントを特定することで、姿勢と動きを解釈できます。これにより、3D空間での動きを含む、アクション、ジェスチャー、身体のダイナミクスをより深く理解することができます。

ポーズ推定の仕組みの理解

姿勢推定モデルは一般的に、ボトムアップとトップダウンの2つの主要なアプローチに従います。ボトムアップアプローチでは、モデルはまず肘、膝、肩などの個々のキーポイントを検出し、それらをグループ化して、どの人物またはオブジェクトに属するかを判断します。対照的に、トップダウンアプローチでは、最初に各オブジェクト(画像内の人物など)を検出し、次にその特定のオブジェクトのキーポイントを特定します。

Fig 2. ボトムアップ型とトップダウン型の姿勢推定法。

YOLO11のような新しいモデルは、両方のアプローチの利点を兼ね備えています。手動でのグループ化ステップを省略することで、ボトムアップ方式の効率を維持しながら、人間を検出し、その姿勢を一度に推定することで、トップダウンシステムの精度も活用します。これは、単一の合理化されたプロセスで行われます。

姿勢推定のためのYOLO11のカスタムトレーニング

ポーズ推定モデルの仕組みについて説明する中で、これらのモデルは実際にさまざまなオブジェクトのポーズをどのように学習するのだろうか、と思われるかもしれません。そこで、カスタムトレーニングという考え方が登場します。

カスタムトレーニングとは、独自のデータを使用して特定のキーポイントを認識するようにモデルを教えることを意味します。モデルをゼロから構築するには、大量のラベル付き画像とかなりの時間が必要になるため、多くの人が転移学習を選択します。これには、COCO-Poseデータセットで事前トレーニングされたYOLO11ポーズ推定モデルなど、大規模なデータセットですでにトレーニングされたモデルから開始し、特定のタスクまたはユースケースに合わせて独自のデータで微調整することが含まれます。

ヨガのポーズを扱っているとしましょう。各ポーズがそのアクティビティに固有のキーポイントでラベル付けされた画像を使用して、YOLO11を微調整できます。これを行うには、モデルが学習できる注釈付き画像のカスタムデータセットが必要です。 

学習時には、バッチサイズ(一度に処理する画像の数)、学習率(モデルが学習を更新する速さ)、エポック数(モデルがデータセットを繰り返す回数)などの設定を調整して、精度を向上させることができます。これにより、特定のニーズに合わせてポーズ推定モデルを構築することが容易になります。

姿勢推定の実世界での応用

ポーズ推定とは何か、そしてそれがどのように機能するかを説明しましたので、次はその現実世界のユースケースのいくつかについて詳しく見ていきましょう。

理学療法に姿勢推定を使用 

姿勢推定は、特に理学療法において、ヘルスケア業界で徐々に信頼できるツールになりつつあります。AIとコンピュータビジョンを使用して、これらのシステムは姿勢と動きをリアルタイムで追跡し、理学療法士が提供するのと同様のフィードバックを提供できます。 

例えば、膝の手術から回復中の患者が、姿勢推定システムを使用して、リハビリ運動を正しく行っているかを確認できます。システムは、誤った動きを特定し、改善のための提案を提供することで、患者が順調に進み、怪我を避けるのに役立ちます。

図3 理学療法にYOLO11を使用する例。

リハビリテーションの枠を超えて、姿勢推定はフィットネスアプリにも応用されています。たとえば、自宅でトレーニングする人がアプリを使用して、エクササイズ中のフォームをチェックできます。アプリは、スクワットの角度を調整したり、デッドリフト中に背中がまっすぐになっていることを確認するなど、リアルタイムでフィードバックを提供できます。これにより、ユーザーはトレーナーを必要とせずにフォームを改善し、怪我を防ぐことができます。

ポーズ推定によって実現されるエンターテイメントのためのモーションキャプチャ

姿勢推定は、エンターテインメントにおけるモーションキャプチャの方法を変え、よりシンプルでアクセスしやすいものにしました。従来、モーションキャプチャは、人の体にマーカーを配置し、特殊なカメラで追跡する必要があり、これは扱いにくく、費用がかかる可能性がありました。 

現在、AIとコンピュータビジョンの進歩により、通常のカメラとアルゴリズムを使用して、マーカーを必要とせずに体の動きを追跡できるようになり、リアルタイムでもプロセスをより効率的かつ正確に実行できます。

この良い例としては、ディズニーのAR(拡張現実)ポーズがあります。この楽しいツールを使用すると、携帯電話で写真を撮り、デジタルキャラクターに拡張現実で自分のポーズをコピーさせることができます。これは、写真のポーズを分析し、それを3Dキャラクターに一致させることで機能し、楽しくパーソナライズされたARセルフィーを作成します。 

Fig 4. ARキャラクターが、ポーズ推定を用いて人のポーズを模倣している様子。

動物の姿勢推定に基づく社会行動研究

動物の行動を研究することで、科学者は動物がどのようにコミュニケーションを取り、配偶者を見つけ、子育てをし、群れで生活するかを理解することができます。この知識は、野生生物を保護し、自然界への理解を深めるために不可欠です。

姿勢推定は、動物にセンサーやタグを取り付けることなく、画像やビデオを使用して動物の動きと姿勢を追跡することで、このプロセスを簡素化します。これらのシステムは、ポーズを自動的に監視し、グルーミング、遊び、喧嘩などの行動に関する洞察を提供できます。 

この興味深い例として、猿の行動を研究するためにポーズ推定を利用している科学者がいる。実際、研究者たちはOpenApePoseのようなデータセットをまとめており、そこには6種の類人猿の71,000以上のラベル付き画像が含まれている。 

Fig 5. 類人猿の姿勢推定。

姿勢推定の利点と欠点

姿勢推定がさまざまな産業にもたらす主な利点をいくつかご紹介します。

  • スケーラビリティ: 姿勢推定システムは、スマートフォンから高度なカメラ設定まで、幅広いデバイスに展開でき、さまざまなユースケースや環境に対応できるように、高いスケーラビリティとアクセスしやすさを実現します。

  • 費用対効果:姿勢推定は通常のカメラに依存し、高価なセンサーやタグを必要としないため、研究および商用アプリケーションの両方で動きを追跡するための、より費用対効果の高いソリューションとなります。

  • 継続的なモニタリング: ポーズ推定システムは、継続的なリアルタイム追跡を提供し、リハビリ中の患者の進捗状況や野生動物の行動追跡など、時間の経過に伴う変化のモニタリングを可能にします。

ポーズ推定の利点はさまざまな分野で明らかですが、考慮すべき課題もいくつかあります。注意すべき主な制限事項を以下に示します。

  • 限られた汎化性能: 人間のデータセットで学習された多くのモデルは、特定のデータセットで再学習しない限り、動物や珍しい体の構造にはうまく汎化しません。

  • 環境的な制限: パフォーマンスは、低照度、速いモーションブラー、または乱雑な背景の下で低下する可能性があります。
  • オクルージョンに対する高い感度: 特に混雑したシーンや複数人の追跡では、体の部位が遮られたり、フレームから外れたりすると、精度が低下する可能性があります。

主なポイント

姿勢推定は初期の頃から大きく進歩し、マーカーを使用するシステムから、YOLO11のような深層学習モデルによって駆動される影響力のあるツールへと進化しました。理学療法を改善したり、インタラクティブなAR体験を強化したり、野生生物の研究を支援したりと、姿勢推定は、機械が動きと姿勢を理解する方法を変えています。技術が進歩し続けるにつれて、その限界に対処することが、さらに実用的な用途を開拓し、機械が私たちや他の生物の動きをより良く理解できるようにするための鍵となります。

AIにご興味がありますか?当社のGitHubリポジトリを探索し、コミュニティと繋がり、ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。ソリューションページで、小売業におけるAI物流業界におけるコンピュータビジョンなどのイノベーションについて詳しくご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました