ヨロビジョン深圳
深セン
今すぐ参加

Ultralytics YOLO11による手書きキーポイント推定の強化

Abirami Vina

6 min read

2025年3月5日

リアルタイムのジェスチャー認識などのアプリケーションにおける姿勢推定に対するUltralytics YOLO11のサポートにより、AI駆動のハンドキーポイント推定を体験してください。

最近、スーパーボウルの手話通訳者が大きな注目を集めています。お気に入りのアーティストの歌をテレビで見ているとき、手話を知っていれば、彼らの手の動きを脳が処理するため、彼らを理解することができます。しかし、もしコンピューターが同じことができたらどうでしょうか?AIを活用したハンドトラッキングソリューションのおかげで、機械が驚くほどの精度で手の動きを追跡し、解釈することが可能になっています。

これらのソリューションの中核となるのはコンピュータビジョンであり、マシンが視覚情報を処理して理解できるようにするAIのサブフィールドです。画像とビデオを分析することにより、Vision AIは、オブジェクトの検出、動きの追跡、および複雑なジェスチャの認識を驚くほどの精度で支援します。

例えば、Ultralytics YOLO11のようなコンピュータビジョンモデルは、姿勢推定を使用して、リアルタイムで手のキーポイントを検出および分析するようにトレーニングできます。そうすることで、これらのモデルは、ジェスチャー認識、手話翻訳、およびAR/VRインタラクションのようなアプリケーションに使用できます。 

この記事では、YOLO11がどのようにAIベースのハンドトラッキングを可能にするか、トレーニングに使用されるデータセット、および手のポーズ推定のためにモデルをカスタムトレーニングする方法について解説します。また、実際のアプリケーションについても見ていきます。それでは、始めましょう!

AIベースの手のキーポイント検出について

AIは、手首、指先、指の関節などのキーポイントを識別することにより、視覚データ内の手の動きを認識および追跡するために使用できます。ポーズ推定として知られる1つのアプローチは、キーポイントをマッピングし、それらが時間の経過とともにどのように変化するかを分析することにより、コンピューターが人間の動きを理解するのに役立ちます。これにより、AIシステムは、体の姿勢、ジェスチャー、およびモーションパターンを高精度で解釈できます。

コンピュータビジョンモデルは、画像またはビデオを分析して手のキーポイントを特定し、その動きを追跡することにより、これを可能にします。これらのポイントがマッピングされると、AIはキーポイント間の空間的関係と、それらが時間の経過とともにどのように変化するかを分析することにより、ジェスチャを認識できます。 

例えば、親指と人差し指の間の距離が短くなると、AIはそれをピンチの動きとして解釈できます。同様に、キーポイントがシーケンス内でどのように動くかを追跡すると、複雑な手のジェスチャーを識別し、将来の動きを予測するのに役立ちます。

__wf_reserved_inherit
Fig 1. コンピュータビジョンを使用した、手におけるキーポイント認識の例。

興味深いことに、ハンドトラッキングのためのポーズ推定は、スマートデバイスのハンズフリー制御から、ロボットの精度向上、ヘルスケアアプリケーションの支援まで、エキサイティングな可能性を切り開きました。AIとコンピュータビジョンが進化し続けるにつれて、ハンドトラッキングは、テクノロジーをよりインタラクティブで、アクセスしやすく、日常生活で直感的にする上で、より大きな役割を果たす可能性があります。

姿勢推定のためのYOLO11の探索

AIベースのハンドトラッキングのソリューションを作成する方法に入る前に、ポーズ推定と、YOLO11がこのコンピュータビジョンタスクをどのようにサポートしているかを詳しく見てみましょう。オブジェクト全体を識別する標準的な物体検出とは異なり、ポーズ推定は、関節、手足、エッジなどの主要なランドマークを検出し、動きや姿勢を分析することに重点を置いています。 

特に、Ultralytics YOLO11は、リアルタイムの姿勢推定用に設計されています。トップダウンとボトムアップの両方の手法を活用することで、人物の検出とキーポイントの推定を1つのステップで効率的に行い、速度と精度において以前のモデルを上回ります。

YOLO11は、すぐに使用できるようにCOCO-Poseデータセットで事前トレーニングされており、頭、肩、肘、手首、腰、膝、足首など、人体のキーポイントを認識できます。 

__wf_reserved_inherit
Fig 2. YOLO11を使い、人間の姿勢を推定する。

YOLO11は、人間の姿勢推定以外にも、生きた物体と無生物の両方で、さまざまな物体のキーポイントを検出するようにカスタムトレーニングできます。この柔軟性により、YOLO11は幅広いアプリケーションに最適です。

Hand Keypointsデータセットの概要

モデルのカスタムトレーニングにおける最初のステップは、データを収集してアノテーションを付けるか、プロジェクトのニーズに合った既存のデータセットを見つけることです。たとえば、Hand Keypointsデータセットは、手追跡および姿勢推定用のVision AIモデルをトレーニングするための良い出発点となります。26,768枚のアノテーション付き画像により、手動でラベル付けを行う必要がなくなります。 

Ultralytics YOLO11のようなモデルを学習させ、手の動きを迅速に検出・追跡する方法を習得させるために使用できます。データセットには、手首、指、関節を網羅する、手1本あたり21個のキーポイントが含まれています。また、データセットのアノテーションは、リアルタイムメディア処理のためのAI搭載ソリューション開発ツールであるGoogle MediaPipeで生成されており、正確で信頼性の高いキーポイント検出を保証します。 

__wf_reserved_inherit
図3. ハンドキーポイントデータセットに含まれる21個のキーポイント。

このような構造化されたデータセットを使用すると、時間を節約でき、開発者はデータの収集とラベル付けではなく、モデルのトレーニングと微調整に集中できます。実際、データセットはすでにトレーニング(18,776枚の画像)と検証(7,992枚の画像)のサブセットに分割されているため、モデルのパフォーマンスを簡単に評価できます。 

手(ハンド)の姿勢推定のためにYOLO11をトレーニングする方法

手(ハンド)のポーズ推定のための YOLO11 のトレーニングは、特に Ultralytics Python パッケージを使用すると簡単なプロセスです。これにより、モデルのセットアップとトレーニングが容易になります。Hand Keypoints データセットはトレーニングパイプラインで既にサポートされているため、追加のフォーマットなしですぐに使用でき、時間と労力を節約できます。

トレーニングプロセスの仕組みは次のとおりです。

  • 環境をセットアップする: 最初のステップは、Ultralytics Pythonパッケージをインストールすることです。
  • ハンドキーポイントデータセットをロードする:YOLO11はこのデータセットをネイティブでサポートしているため、自動的にダウンロードして準備できます。
  • 事前学習済みモデルの使用: 精度を向上させ、トレーニングプロセスをスピードアップするために、事前学習済みのYOLO11ポーズ推定モデルから始めることができます。
  • モデルのトレーニング:モデルは、複数のトレーニングサイクルを経て、手のキーポイントを検出および追跡することを学習します。
  • パフォーマンスの監視: Ultralyticsパッケージには、精度や損失などの主要な指標を追跡するための組み込みツールも用意されており、モデルが時間の経過とともに改善されるようにします。
  • 保存とデプロイ: トレーニング後、モデルはエクスポートして、リアルタイムのハンドトラッキングアプリケーションに使用できます。

カスタムトレーニングされたモデルの評価

カスタムモデルの作成手順を進めていくと、パフォーマンスの監視が不可欠であることに気付くでしょう。トレーニング中の進捗状況の追跡に加えて、モデルが手のキーポイントを正確に検出し、追跡できるように、後でモデルを評価することが重要です。 

精度、損失値、平均適合率(mAP)などの主要なパフォーマンス指標は、モデルのパフォーマンスを評価するのに役立ちます。Ultralytics Pythonパッケージには、結果を視覚化し、予測を実際のアノテーションと比較するための組み込みツールが用意されており、改善の余地がある領域を簡単に見つけることができます。

モデルのパフォーマンスをよりよく理解するために、トレーニングログに自動的に生成される損失曲線、適合率-再現率プロット、混同行列などの評価グラフを確認できます。 

これらのグラフは、過学習(モデルが訓練データを記憶するものの、新しいデータへの対応に苦慮する場合)や学習不足(モデルが十分にパターンを学習できず、正確なパフォーマンスを発揮できない場合)といった問題を特定し、精度向上のための調整を行う上で役立ちます。また、新しい画像や動画でモデルをテストし、実際のシナリオでどの程度機能するかを確認することも重要です。

AI駆動のハンドトラッキングソリューションの応用

次に、Ultralytics YOLO11による手のキーポイント推定の最も影響力のあるアプリケーションのいくつかを見ていきましょう。

YOLO11によるリアルタイムジェスチャー認識

例えば、手を振るだけでテレビの音量を調整したり、空中で指をスワイプするだけでスマートホームシステムを操作したりできるとしましょう。YOLO11を活用したリアルタイムのジェスチャー認識は、手の動きをリアルタイムで正確に検出することで、このような非接触インタラクションを可能にします。 

これは、AIカメラを使用して手のキーポイントを追跡し、ジェスチャーをコマンドとして解釈することで機能します。深度センシングカメラ、赤外線センサー、または通常のWebカメラでも手の動きをキャプチャし、YOLO11がデータを処理してさまざまなジェスチャーを認識できます。たとえば、このようなシステムは、スワイプして曲を変更したり、ピンチしてズームインしたり、円運動で音量を調整したりする動作を区別できます。

手話認識のためのAIベースの手のキーポイント検出

手追跡用のAIソリューションは、聴覚障害者と手話を理解できない人との間のシームレスなコミュニケーションをサポートできます。たとえば、カメラとYOLO11が統合されたスマートデバイスを使用して、手話をテキストまたは音声に即座に翻訳できます。 

YOLO11のような技術の進歩のおかげで、手話翻訳ツールはより正確でアクセスしやすくなっています。これは、支援技術、ライブ翻訳サービス、教育プラットフォームなどのアプリケーションに影響を与えます。AIは、コミュニケーションのギャップを埋め、職場、学校、公共スペースでのインクルージョンを促進するのに役立ちます。

ハンドトラッキングのためのコンピュータビジョン:ARおよびVR体験の向上

コントローラーを使わずに仮想現実(VR)ゲームでオブジェクトをつかむことができたことはありませんか?コンピュータビジョンを活用したハンドトラッキングは、ユーザーが拡張現実(AR)およびVR環境で自然にインタラクトできるようにすることで、これを可能にします。 

__wf_reserved_inherit
Fig 4. ハンドトラッキングはARおよびVRアプリケーションの重要な要素です。

Ultralytics YOLO11のようなモデルを使用した手の手のキーポイント推定により、AIはリアルタイムで動きを追跡し、ピンチ、グラブ、スワイプなどのジェスチャーを可能にします。これにより、ゲーム、バーチャルトレーニング、リモートコラボレーションが強化され、インタラクションがより直感的になります。ハンドトラッキング技術が向上するにつれて、ARとVRはさらに没入感とリアルさを増すでしょう。 

主なポイント

Ultralytics YOLO11による手のキーポイント推定は、AIを活用した手追跡ソリューションをよりアクセスしやすく、信頼性の高いものにしています。リアルタイムのジェスチャー認識から、手話の解釈、AR/VRアプリケーションまで、コンピュータビジョンはヒューマンコンピュータインタラクションに新たな可能性を切り開いています。

また、合理化されたカスタムトレーニングと微調整のプロセスは、開発者がさまざまな現実世界の用途に合わせた効率的なモデルを構築するのに役立っています。コンピュータビジョン技術の進化に伴い、ヘルスケア、ロボット工学、ゲーム、セキュリティなどの分野でさらに多くのイノベーションが期待できます。

私たちのコミュニティと交流し、GitHubリポジトリでAIの進歩を探求してください。ソリューションページで、製造業におけるAIヘルスケアにおけるコンピュータビジョンの影響を発見してください。ライセンスプランを調べて、今日からAIの旅を始めましょう!

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました