ポーズ推定がどのように機能するのか、その実際の応用例、そしてUltralytics YOLO11 ようなモデルがどのように機械に体の動きや姿勢を解釈させるのかを学ぶ。
ポーズ推定がどのように機能するのか、その実際の応用例、そしてUltralytics YOLO11 ようなモデルがどのように機械に体の動きや姿勢を解釈させるのかを学ぶ。
誰かがうなだれていたり、肩を後ろに引いてまっすぐに立っていたりするのを見ると、姿勢が悪いか自信があるかがすぐにわかります。誰もあなたにそれを説明する必要はありません。それは、私たちが時間をかけて、自然にボディランゲージを解釈することを学んできたからです。
経験と観察を通じて、私たちの脳は人間を含むさまざまな物体の姿勢を認識することに非常に長けています。人工知能(AI)と、機械が世界からの視覚情報を解釈できるようにするコンピュータビジョンの最近の進歩のおかげで、機械もこの能力を学習し、再現し始めています。
姿勢推定は、画像やビデオを見て、人やオブジェクトの位置と向きを把握するのに役立つコンピュータビジョンタスクです。関節や手足などの体のキーポイントを特定して、人や物がどのように動いているかを理解します。
この技術は、フィットネス、ヘルスケア、アニメーションなどの分野で広く使われている。例えば職場環境では、従業員の姿勢を監視し、安全や健康への取り組みをサポートするために使用することができる。以下のようなコンピュータ・ビジョン・モデル Ultralytics YOLO11のようなコンピュータ・ビジョン・モデルは、人間の姿勢をリアルタイムで推定することでこれを可能にする。

この記事では、ポーズ推定とその仕組み、そして実際に活用されている事例について詳しく見ていきます。それでは始めましょう!
姿勢推定の研究は、1960年代後半から70年代に始まりました。長年にわたり、このコンピュータビジョンタスクへのアプローチは、基本的な数学や幾何学から、人工知能によるより高度な手法へと移行してきました。
当初は、固定されたカメラアングルと既知の参照点に依存していた。その後、3Dモデルや特徴マッチングを含むように進化した。今日、YOLO11 ようなディープラーニング・モデルは、画像やビデオからリアルタイムで身体位置をdetect ことができ、ポーズ推定をかつてないほど高速かつ正確に行うことができる。
技術が進歩するにつれて、研究者たちは様々な物体、特に人間や動物のポーズを監視・track できる潜在的な用途を見出した。姿勢推定は、AIツールが以前は不可能だった方法で姿勢や動きを理解し、測定することを可能にするため、特に重要である。
例えば、コンピュータがハンズフリー操作のためにジェスチャーを認識したり、アスリートの動きを分析してパフォーマンスを向上させたり、ビデオゲームでリアルなアニメーションを実現したり、患者の回復状況を追跡してヘルスケアをサポートしたりできます。
姿勢推定は、物体検出やインスタンスセグメンテーションなどの他のコンピュータビジョンタスクとは異なります。これらのタスクは主に、画像内のオブジェクトを識別して特定することに焦点を当てています。
たとえば、物体検出では、人、車両、動物などのアイテムの周囲にバウンディングボックスを描画して、それらの存在と位置を示します。インスタンスセグメンテーションは、各オブジェクトの正確な形状をピクセルレベルでアウトライン化することにより、これをさらに一歩進めます。
しかし、これらの手法はどちらも、主にオブジェクトが何であるか、どこにあるかに関係しており、オブジェクトがどのように配置されているか、または何をしているかについての情報を提供しません。そこで、姿勢推定が重要になります。
姿勢推定は、肘、膝、さらには尾など、身体の主要なポイントを特定することで、姿勢と動きを解釈できます。これにより、3D空間での動きを含む、アクション、ジェスチャー、身体のダイナミクスをより深く理解することができます。
姿勢推定モデルは一般的に、ボトムアップとトップダウンの2つの主要なアプローチに従います。ボトムアップアプローチでは、モデルはまず肘、膝、肩などの個々のキーポイントを検出し、それらをグループ化して、どの人物またはオブジェクトに属するかを判断します。対照的に、トップダウンアプローチでは、最初に各オブジェクト(画像内の人物など)を検出し、次にその特定のオブジェクトのキーポイントを特定します。

YOLO11ようないくつかの新しいモデルは、両方のアプローチの利点を融合している。手作業によるグループ分けのステップを省くことで、ボトムアップ方式の効率性を維持する一方、人物の検出とポーズの推定を一度に行うことで、トップダウン方式の精度を活用している。
ポーズ推定モデルの仕組みについて説明する中で、これらのモデルは実際にさまざまなオブジェクトのポーズをどのように学習するのだろうか、と思われるかもしれません。そこで、カスタムトレーニングという考え方が登場します。
カスタム学習とは、自分のデータを使って特定のキーポイントを認識するようにモデルを教えることである。ゼロからモデルを構築するには、大量のラベル付き画像と多大な時間が必要となるため、多くの人は転移学習を選択する。これは、COCOデータセットで事前に訓練されたYOLO11 ポーズ推定モデルのように、大規模なデータセットですでに訓練されたモデルから開始し、特定のタスクやユースケースのために独自のデータで微調整することを意味します。
例えばヨガのポーズを扱うとしよう。各ポーズにそのアクティビティ特有のキーポイントがラベル付けされた画像を使って、YOLO11 微調整することができる。そのためには、モデルが学習できる、注釈付き画像のカスタムデータセットが必要です。
学習時には、バッチサイズ(一度に処理する画像の数)、学習率(モデルが学習を更新する速さ)、エポック数(モデルがデータセットを繰り返す回数)などの設定を調整して、精度を向上させることができます。これにより、特定のニーズに合わせてポーズ推定モデルを構築することが容易になります。
ポーズ推定とは何か、そしてそれがどのように機能するかを説明しましたので、次はその現実世界のユースケースのいくつかについて詳しく見ていきましょう。
姿勢推定は、ヘルスケア業界、特に理学療法において、徐々に信頼できるツールになりつつある。AIとコンピューター・ビジョンを使用することで、これらのシステムはリアルタイムで姿勢と動きをtrack し、理学療法士が提供するようなフィードバックを提供することができる。
例えば、膝の手術から回復した患者は、ポーズ推定システムを使って、リハビリのエクササイズが正しく行われているかを確認することができる。このシステムは、間違った動きを発見し、改善策を提案することで、患者がtrack 乗り、怪我をしないようにサポートします。

リハビリテーションの枠を超えて、姿勢推定はフィットネスアプリにも応用されています。たとえば、自宅でトレーニングする人がアプリを使用して、エクササイズ中のフォームをチェックできます。アプリは、スクワットの角度を調整したり、デッドリフト中に背中がまっすぐになっていることを確認するなど、リアルタイムでフィードバックを提供できます。これにより、ユーザーはトレーナーを必要とせずにフォームを改善し、怪我を防ぐことができます。
姿勢推定は、エンターテインメントにおけるモーションキャプチャの方法を変え、よりシンプルでアクセスしやすいものにしました。従来、モーションキャプチャは、人の体にマーカーを配置し、特殊なカメラで追跡する必要があり、これは扱いにくく、費用がかかる可能性がありました。
現在では、AIとコンピュータービジョンの進歩により、マーカーを必要とせず、通常のカメラとアルゴリズムを使って身体の動きをtrack することができる。
この良い例としては、ディズニーのAR(拡張現実)ポーズがあります。この楽しいツールを使用すると、携帯電話で写真を撮り、デジタルキャラクターに拡張現実で自分のポーズをコピーさせることができます。これは、写真のポーズを分析し、それを3Dキャラクターに一致させることで機能し、楽しくパーソナライズされたARセルフィーを作成します。

動物の行動を研究することで、科学者は動物がどのようにコミュニケーションを取り、配偶者を見つけ、子育てをし、群れで生活するかを理解することができます。この知識は、野生生物を保護し、自然界への理解を深めるために不可欠です。
姿勢推定は、動物にセンサーやタグを取り付けることなく、画像やビデオを使用して動物の動きと姿勢を追跡することで、このプロセスを簡素化します。これらのシステムは、ポーズを自動的に監視し、グルーミング、遊び、喧嘩などの行動に関する洞察を提供できます。
この興味深い例として、猿の行動を研究するためにポーズ推定を利用している科学者がいる。実際、研究者たちはOpenApePoseのようなデータセットをまとめており、そこには6種の類人猿の71,000以上のラベル付き画像が含まれている。

姿勢推定がさまざまな産業にもたらす主な利点をいくつかご紹介します。
ポーズ推定の利点はさまざまな分野で明らかですが、考慮すべき課題もいくつかあります。注意すべき主な制限事項を以下に示します。
YOLO11ようなディープラーニング・モデルによって、マーカーを使ったシステムからインパクトのあるツールへと進化した。理学療法を向上させるにせよ、インタラクティブなAR体験をパワーアップさせるにせよ、野生動物の研究に役立つにせよ、ポーズ推定は、機械が動きや姿勢を理解する方法を変えつつある。テクノロジーが進歩し続ける中、その限界に対処することは、さらに実用的な用途を解き放ち、私たちや他の生物の動きをよりよく理解する機械を作る鍵となるだろう。
AIにご興味がありますか?当社のGitHubリポジトリを探索し、コミュニティと繋がり、ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。ソリューションページで、小売業におけるAIや物流業界におけるコンピュータビジョンなどのイノベーションについて詳しくご覧ください。