YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

OpenPoseとは?ポーズ推定におけるマイルストーンを探る

Abirami Vina

5分で読めます

2025年6月17日

OpenPoseがコンピュータビジョンアプリケーションにおける姿勢推定にどのように使用できるかをご覧ください。その機能とVision AIにおける重要性について学びます。

今日、画像やカメラは、私たちの携帯電話、家、そして公共の場所にも組み込まれ、いたるところに存在します。私たちは、瞬間を捉えるだけでなく、周囲の世界を理解し、インタラクトするためにそれらに頼っています。 

舞台裏では、人工知能(AI)のサブフィールドであるコンピュータビジョンが、マシンが視覚データを解釈できるようにすることで、これを実現しています。これにより、システムは物体を検出し、顔を認識し、動きを追跡できるようになり、私たちが日常的に使用する多くのテクノロジーで重要な役割を果たしています。 

近年のAIの進歩により、コンピュータビジョンモデルは、より複雑なデータや洞察を分析し、抽出できるようになりました。その一例が姿勢推定です。これは、人間の動きの理解に焦点を当てたコンピュータビジョンタスクです。 

画像またはビデオ内の肩、肘、膝などの体のキーポイントを識別することで機能します。これにより、人の動きを分析できるようになり、フィットネストラッキング、アニメーション、ヘルスケアなどのアプリケーションが可能になります。

ポーズ推定のために開発された多くのツールの中で、OpenPoseは大きな躍進を遂げました。カーネギーメロン大学のPerceptual Computing Labの研究者によって作成されたこのシステムは、カメラのみを使用して、リアルタイムで複数の人の全身ポーズ(手、足、顔のキーポイントを含む、1人あたり最大135のキーポイント)を検出できる最初のオープンソースシステムの1つでした。

この記事では、OpenPoseとは何か、その仕組み、そしてコンピュータビジョンのマイルストーンとしての重要性について解説します。

図1. OpenPoseを使用した複数人のポーズ推定。

姿勢推定の歴史に関する考察

AIが広く採用される前は、ビデオで人間の動きを追跡するには、特殊な機器を使用する必要がありました。映画やアニメーションなどの業界では、俳優は反射マーカーが付いたスーツを着て、カメラが制御されたスタジオ環境で動きを捉えることがよくありました。 

これらのマーカーベースのモーションキャプチャ技術は正確でしたが、高価であり、特定のセットアップに限定されていました。コンピュータビジョンの進歩に伴い、研究者たちはマーカーを使用せずに体の動きを追跡する方法を探しました。彼らはエッジ、輪郭、テンプレートを使用して、画像内の人間の形を見つけました。

これらの初期のシステムは、単純でわかりやすいインスタンスでは機能しましたが、現実世界のシナリオでは苦労しました。人々が予期しない方法で移動したり、複数の人がフレームに表示されたりすると、多くの場合、結果が悪くなりました。

2010年代後半には、深層学習がポーズ推定に大きな変化をもたらしました。ビジョンAIモデルは、人間のポーズの大規模なデータセットでトレーニングできるようになりました。モデルは、エッジやテンプレートに依存する代わりに、何千ものラベル付き画像を学習することで、体の関節と構造を認識することを学習しました。これにより、ポーズ推定はより正確で、柔軟性があり、より広範な設定で影響力を持つようになりました。

図2. 2017年から2023年までの人間のポーズ推定モデルの進化。

OpenPose:現代のポーズ推定が始まった場所

OpenPoseは2017年に最初にリリースされ、1枚の画像で複数の人のポーズを同時に推定することができます。以前のシステムとは異なり、OpenPoseは特別なスーツやマーカーを必要としません。標準的なカメラで動作し、画像やビデオをリアルタイムで処理することができます。これらの機能により、開発者や研究者はポーズ推定にアクセスしやすくなりました。

OpenPoseがコンピュータビジョンにもたらした基盤は、他の様々なアプリケーション向けの新しいアーキテクチャ構築を促進しました。今日では、姿勢推定タスクをサポートするUltralytics YOLO8Ultralytics YOLO11のようなVision AIモデルが、より高速な結果と低レイテンシを提供しています。 

図3. YOLO11を使用した姿勢推定。

しかし、ポーズ推定がどのように進化してきたかを知りたい場合は、OpenPoseから始めるのが最適です。OpenPoseは、多くの新しいシステムが今日でも依存している重要なアイデアを紹介しました。 

OpenPoseの主要な機能

OpenPoseがなぜ重要なのかについて理解が深まったところで、実際に何ができるのかを詳しく見ていきましょう。

OpenPoseの機能の中核にあるのは、キーポイント検出と呼ばれるものです。キーポイントは、鼻の先端、肩の中心、肘、手首、腰、膝、足首など、人体上の特定のランドマークです。OpenPoseは、指や顔の特徴などの詳細な領域を含む、1人あたり最大135個のこれらの点を検出できます。

これらの点を結ぶと、人体を簡略化した表現、つまりデジタルスケルトンと考えることができます。この骨格のアウトラインは、人がどこにいるかだけでなく、座っているか、立っているか、手を振っているか、笑っているか、歩いているかなど、どのような姿勢であるかを示します。コンピューターは、私たちが本能的に人のボディーランゲージを理解するのと同じように、これらのスケルトンを使って視覚的に人間の動きを解釈できます。

スケルトン追跡は、背景のノイズや気を散らすものを排除し、システムが人間の姿勢と動きのみに集中できるようにするため、特に役立ちます。 OpenPoseは、すべてのピクセルを分析する代わりに、人がどのように動いているか、または相互作用しているかを物語る意味のあるポイントに焦点を当てています。

OpenPoseは、日常の画像やビデオからこの構造化された情報を抽出することにより、ジェスチャーに応答したり、身体活動を監視したり、感情的な合図を評価したり、デジタルキャラクターをアニメーション化したりするアプリケーションを構築することを可能にします。

OpenPoseはどのように機能しますか? 

OpenPoseが視覚入力から人体のキーポイントを検出し、接続する方法の概要を以下に示します。

  • 画像から開始:OpenPoseは、写真、ビデオ、またはライブカメラフィードから1枚の画像を取得します。
  • 重要な体の部位を特定します: システムは、鼻、肘、手首、膝、足首など、体の主要なポイントを探します。システムが体の部位の位置を確信できる場所にマークされます。
  • どの部分が互いに関連しているかを把握する: 次に、OpenPoseはキーポイントがどのように接続されているかを確認します。手首を右肘や肩に一致させるなど、どの関節が同じ人に属するかを判断するために、数学的な計算を使用します。
  • 各人物のスケルトンを描画: キーポイントをグループ化した後、OpenPoseはそれらを各人物のポーズを示す「スティックフィギュア」に接続します。これは、同じフレームに複数の人物が表示される場合でも機能します。
  • ポーズデータの出力:検出されたすべてのキーポイントの正確な位置を提供します。これらは、動きの追跡、ジェスチャーの認識、またはインタラクティブツールの構築に使用でき、すべてリアルタイムで行われます。
図4. OpenPoseを使用した人間のキーポイント検出とトラッキング。

OpenPoseを使用した業界全体の姿勢推定アプリケーション 

OpenPoseは、さまざまな現実世界のユースケースでポーズ推定を実用的にした最初の高度なツールの1つでした。今日のリアルタイムコンピュータビジョンソリューションでは一般的に使用されていませんが、スポーツ、エンターテイメント、教育、安全などの分野での初期の作業を形作る上で重要な役割を果たしました。 

これらの分野でどのように道を切り開いたのかを詳しく見てみましょう。

フィットネスとスポーツのためのOpenPoseによる姿勢推定

野球を見ているとき、何が起こっているかを理解するのは簡単です。投球、スイング、盗塁などをすぐに認識できます。人間として、私たちは直感的に体の動きを読み取り、あまり苦労せずに意味を理解します。しかし、機械にとって、これらの行動を認識することははるかに複雑です。体の各部分が空間をどのように移動するかについて、正確な情報が必要になります。

OpenPoseは、コンピュータビジョンのこの分野における大きな前進でした。さまざまな設定でアスリートのフォームを分析するための実用的なツールでした。

多くの研究プロジェクトでは、OpenPoseを使用してスイングやジャンプのような動きを分解し、選手の動きに基づいて特定の野球の動作を分類することさえしました。標準的なビデオを使用したオープンな環境で動作するため、研究者はそのようなシステムが実際のトレーニングやコーチングのシナリオでどのように機能するかをテストすることができました。

これらの初期の研究は、高度なスポーツテクノロジーで使用されているパフォーマンストラッキングツールの基礎を築くのに役立ちました。

図5. OpenPoseを使用した野球の動作分類パイプラインの概要。

セキュリティおよび安全システムでのOpenPoseの利用

同様に、研究者たちは、ビデオベースの姿勢追跡が安全監視をどのようにサポートできるかを探るために、OpenPoseも使用しました。公共エリアでの転倒、予期しないジェスチャー、または動きのパターンなどの行動検出でテストされました。

OpenPoseは、標準的なカメラで動作するため、病院や交通機関のハブなどの環境で、初期の実験をより手軽に行えるようにしました。これらの研究は、現在、監視、転倒検出、および緊急対応システムで使用されている新しいモデルの開発を推進するのに役立ちました。

図6. OpenPoseによって実現される転倒検出。

OpenPoseのメリットとデメリット

OpenPoseが提供する利点の一部をご紹介します。

  • 研究とプロトタイピングに役立ちます:学術研究、特にヒューマンコンピュータインタラクション、バイオメカニクス、行動分析などの分野で広く使用されています。
  • クロスプラットフォームのサポート: Windows、Linux、macOS上で実行でき、中央処理装置(CPU)とグラフィックス処理装置(GPU)の両方をサポートしています。
  • オフライン処理機能: インターネットアクセスがない環境で実行できるため、医療や教育などのプライバシーが重視される設定に最適です。

OpenPoseは大きな進歩でしたが、留意すべき技術的な限界もあります。OpenPoseに関連する主な課題を以下に示します。 

  • 高い処理要件: OpenPoseをリアルタイムで実行するには、強力なGPUとかなりの計算リソースが必要です。
  • 環境に左右される: 低照度、混雑した場所、またはカメラアングルが理想的でない場合、パフォーマンスが低下する可能性があります。
  • 新しいモデルと比較して重い:新しいポーズ推定モデルと比較して、OpenPoseは比較的大きく、速度が遅いです。スマートフォン、タブレット、組み込みシステムなどのリソースが限られたデバイスへの展開には適していません。

主なポイント

OpenPoseは、ポーズ推定をよりアクセスしやすくする上で重要な役割を果たしました。体の動きの追跡は、スーツや特殊な機器に頼ることなく、シンプルなカメラで行うことができることを示しました。

これは、ヘルスケア、教育、エンターテインメント、研究など、多くの実用的なアプリケーションの基礎を築きました。より新しいモデルがより速い速度とより軽量なパフォーマンスを提供するようになった一方で、OpenPoseは、ポーズ推定がどのように進化したかを理解するための重要な基準点であり続けています。 

コミュニティに参加し、GitHubリポジトリにアクセスして、AIについてさらに学びましょう。独自のコンピュータビジョンソリューションを構築したい場合は、ライセンスオプションをご覧ください。また、ヘルスケア分野におけるコンピュータビジョン物流におけるAIがどのような影響を与えているかについてもご確認ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました