物体検出における平均平均精度(mAP)

アビラミ・ヴィナ

6分で読める

2025年8月28日

物体検出における平均平均精度(mAP)を理解する。その意味、計算、そしてなぜmAPがモデルのパフォーマンスを評価するための鍵となるのかを学びます。

AIの導入は急速に進んでおり、自動運転車から棚に並んだ商品を識別する小売システムまで、さまざまなイノベーションにAIが組み込まれている。これらの技術は、機械が視覚データを分析できるようにする人工知能(AI)の一分野であるコンピューター・ビジョンに依存している。 

コンピュータビジョンシステムやアルゴリズムの精度を測定するために使用される重要な評価指標は、平均平均精度(mAP)です。mAP指標は、ビジョンAIモデルの予測が現実世界の結果にどれだけ近いかを示します。

一般的なコンピュータ・ビジョンのタスクは物体検出であり、モデルは画像内の複数の物体を識別し、それらの周囲にバウンディング・ボックスを描画する。mAPは物体検出モデルの性能を評価するために使用される標準的な指標であり、Ultralytics YOLO11のような深層学習モデルのベンチマークに広く使用されている。

この記事では、平均平均精度がどのように計算されるのか、そしてなぜ平均平均精度が物体検出モデルのトレーニングや評価に不可欠なのかを説明します。それでは始めましょう!

平均平均精度(mAP)とは何ですか?

平均平均精度とは、画像内の異なるオブジェクトを検出・識別するような視覚情報検索に関連するタスクに関して、ディープラーニングモデルがどの程度正確であるかを示すスコアである。例えば、犬、猫、車を含む写真を分析する物体検出モデルを考えてみよう。信頼性の高いモデルは、各オブジェクトを認識し、その周囲にバウンディングボックスとラベルを描画して、それがどこにあり、何であるかを強調することで、オブジェクト検出を実行できる。

mAPは、多数の画像と異なる種類の物体に対して、モデルがこのタスクをどの程度実行できるかを示す。モデルが画像内の各オブジェクトとその位置を正確に識別しているかどうかをチェックする。スコアは0から1の範囲で、1はモデルがすべてを完璧に検出したことを意味し、0はどのオブジェクトも検出できなかったことを意味します。

平均平均精度(mAP)の主要概念

機械学習における平均平均精度の背後にある概念を探る前に、2つの基本的な用語について理解を深めよう。 

グランドトゥルースとは正確な参照データのことで、アノテーションと呼ばれるプロセスを通じて、画像内のオブジェクトとその位置が人間によって注意深くラベル付けされる。一方、予測は、AIモデルが画像を分析した後に出す結果である。AIモデルの予測とグランドトゥルースを比較することで、モデルがどれだけ正しい結果に近づいたかを測定することができる。 

図1.モデルの予測値とグラウンドトゥルースのバウンディングボックス。画像は筆者による

混乱マトリックス

混同行列は、物体検出モデルの精度を理解するためによく使われます。これは、モデルの予測が実際の正解(ground truth)とどのように一致するかを示す表です。この表から、真陽性、偽陽性、偽陰性、真陰性という4つの重要な要素や結果の内訳を知ることができます。

これらの成分が混同行列で何を表しているかは以下の通りである:

  • 真陽性(TP):
    ‍ 物体とその位置がモデルによって正しく検出される。
  • 誤検出(FP): モデルは検出を行ったが不正確であった。
    誤検出(FP): モデルは検出を行ったが不正確であった。
  • 偽陰性(FN):
    ‍ 実際には画像内に存在したが、モデルが検出できなかった物体。
  • 真陰性(TN):真陰性は、モデルがオブジェクトの不在を正しく識別した場合に発生する。

真陰影は物体検出ではあまり使われません。通常、画像内の多くの空領域を無視するからです。しかし、モデルが画像にラベルを割り当てる 画像分類など、他のコンピュータ・ビジョン・タスクでは不可欠です。例えば、ある画像に猫が写っているかどうかを検出するタスクがあり、その画像に猫が写っていない場合、モデルは「猫なし」と正しく識別します。

図2.混同行列における分類結果。画像は著者による

インターセクション・オーバー・ユニオン(IoU)

物体検出モデルを評価するもう一つの重要な指標は、 Intersection over Union(IoU)である。このようなVision AIモデルでは、画像内のオブジェクトの存在を検出するだけでは不十分で、画像内のどこにオブジェクトがあるのかを特定し、バウンディングボックスを描画する必要がある。 

IoUメトリクスは、モデルの予測したボックスが、実際の正しいボックス(グランド・トゥルース)にどれだけ近いかを測定する。スコアは0から1の間で、1は完全に一致することを意味し、0は全く重ならないことを意味する。

例えば、IoUが高い(0.80や0.85のような)場合は、予測されたボックスが地上の真実のボックスとほぼ一致することを意味し、正確な位置特定を示しています。低いIoU(0.30や0.25など)は、モデルが物体の位置を正確に特定できなかったことを意味します。

検出が成功したかどうかを判断するために、我々は異なる閾値を使用する。一般的なIoUの閾値は0.5であり、これは予測されたボックスが真陽性としてカウントされるためには、グラウンド・トゥルースのボックスと少なくとも50%重なる必要があることを意味する。この閾値以下の重なりは誤検出とみなされる。

図3.ユニオンよりインターセクションを理解する。画像は筆者撮影。

精度と再現性

これまで、物体検出モデルの性能を理解するための基本的な評価指標をいくつか探ってきた。これに基づき、最も重要な2つのメトリクスは、精度とリコールです。これらは、モデルの検出がどの程度正確であるかを明確に示してくれます。それでは、これらの評価基準について見ていきましょう。

精度の値は、モデルの予測のうち、いくつが実際に正しかったかを教えてくれる。モデルが検出したと主張するすべての物体のうち、いくつが本当にそこにあったのか?

一方、Recall値は、モデルが画像に存在する実際のオブジェクトをどれだけ検出できたかを測定します。これは、存在するすべての実際のオブジェクトのうち、モデルはいくつを正しく検出したかという質問に答えるものです。

精度と想起を合わせると、モデルがどの程度うまく機能しているかをより明確に把握することができる。例えば、あるモデルが画像内の10台の車を予測し、そのうちの9台が実際に車であった場合、そのモデルの精度は90%(ポジティブな予測)となります。 

これらの2つの評価指標は、しばしばトレードオフを伴います:モデルは、完全に自信のある予測のみを行うことで、高い精度値を達成することができますが、これは多くのオブジェクトを見逃す原因となり、リコール・レベルを低下させます。一方、ほとんどすべてのバウンディング・ボックスを予測することで、非常に高いリコールに到達することもできますが、これは精度を下げることになります。

図4.精度と再現率。画像は著者による

平均精度

precisionとrecallは、モデルが個々の予測でどのように動作するかを理解するのに役立ちますが、Average precision (AP)はより広い視野を提供することができます。これは、より多くのオブジェクトを検出しようとするとき、モデルの精度がどのように変化するかを説明し、その性能を1つの数値に要約します。

平均的な精度スコアを計算するには、まず各タイプのオブジェクトについて、精度-想起曲線(またはPR曲線)と呼ばれるグラフのような複合指標を作成します。この曲線は、モデルが予測を重ねるにつれてどうなるかを示しています。 

モデルが最も簡単な、あるいは最も明白な対象物だけを検出することから始めるシナリオを考えてみよう。この段階では、ほとんどの予測が正しいので精度は高いが、多くの物体がまだ見落とされているので、再現率は低い。モデルが、より難しいオブジェクトやよりレアなオブジェクトを含む、より多くのオブジェクトを検出しようとすると、通常、より多くのエラーが発生します。このため、精度は低下し、リコールは増加します。

平均精度は曲線下面積(PR曲線のAUC)である。より大きな面積は、モデルがより多くのオブジェクトを検出しても、その予測の正確さを保つのに優れていることを意味する。APは,各クラス・ラベルについて別々に計算される. 

例えば、車、バイク、歩行者を検出できるモデルでは、これら3つのカテゴリーごとに個別にAP値を計算することができる。これにより、モデルがどの物体を検出するのが得意で、どこをまだ改善する必要があるかがわかります。

図5.5つの異なるクラスのPR曲線。(出典)

平均平均精度

各オブジェクトクラスの平均精度を計算した後、すべてのクラスにわたるモデルの全体的なパフォーマンスを反映する単一のスコアが必要です。これは平均平均精度 式を用いて達成できます。これはすべてのカテゴリのAPスコアを平均します。

例えば、YOLO11のようなコンピュータビジョンモデルが、自動車で0.827、オートバイで0.679、トラックで0.355、バスで0.863、自転車で0.982のAPを達成したと仮定しよう。mAPの公式を用いると、これらの数値を加算し、クラスの総数で割ると次のようになる: 

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≒ 0.743

0.743のmAPスコアは、モデルがすべてのオブジェクト・クラスにわたってどの程度うまく機能するかを判断するための簡単な解答を提供する。1に近い値は、モデルがほとんどのカテゴリーで正確であることを意味し、低い値は、いくつかのカテゴリーで苦戦していることを示唆する。

コンピュータビジョンにおけるAPとmAPの意義

APとmAPがどのように計算され、その構成要素が何であるかについて理解を深めたところで、ここではコンピュータビジョンにおけるそれらの意義について概観する:

  • 特定のクラスのAPが低い:単一のクラスに対するAPが低いということは、モデルがその特定のオブジェクトクラスで苦戦していることを意味することが多い。これは、トレーニングデータが不十分であったり、オクルージョンのような画像の視覚的な課題が原因であったりする。
  • 定位エラー: 低いIoUしきい値(mAP@0.50など)でmAP値が高く、高いIoUしきい値(mAP@0.75など)で大幅に低下する場合、モデルは物体を検出できるが、正確に定位させるのに苦労していることを示している。
  • オーバーフィッティング:トレーニングデータセットのmAP値が高く、検証データセットのmAP値が低い場合、オーバーフィッティングの兆候であり、新しい画像に対してモデルが信頼できなくなる。

平均平均精度の実世界での応用

次に、実際のコンピュータビジョンのユースケースを構築する際に、mAPのような重要なメトリクスがどのように役立つかを探ってみましょう。

自律走行車:なぜmAP値が高いほど安全な道路なのか?

自動運転車に関しては、物体検知は歩行者、道路標識、自転車、車線標示を識別するために極めて重要である。例えば、子供が突然道路を横切って走ってきた場合、車は数秒で物体(子供)を検知し、どこにいるかを特定し、その動きを追跡し、必要な行動(ブレーキをかける)をとる。 

YOLO11のようなモデルは、このような危険度の高いシナリオでリアルタイムに物体を検知するために設計されている。このような場合、mAPは安全性の重要な指標となる。

mAPスコアが高ければ、システムが子供を素早く検知し、正確に位置を特定し、最小限の遅れでブレーキを作動させることができる。mAPが低いと、子供を別の小さな物体と混同するなど、検出漏れや危険な誤分類を意味する。

図6.YOLO11を道路上の歩行者検出に使用した例。出典

正確な製品検出のためのmAPの使用

同様に、 小売業では、在庫監視やチェックアウトプロセスのようなタスクを自動化するために、オブジェクト検出モデルを使用することができる。顧客がセルフレジで商品をスキャンするとき、検出のエラーはフラストレーションの原因となる。

高いmAPスコアは、モデルが類似商品を正確に区別し、商品が密に詰められていても正確なバウンディングボックスを描画することを確認します。mAPスコアが低いと、取り違えの原因になります。例えば、モデルがオレンジジュースの瓶と見た目が似ているリンゴジュースの瓶を間違えた場合、誤った請求や不正確な在庫報告につながる可能性があります。

YOLO11のようなモデルと統合された小売システムは、リアルタイムで商品を検出し、在庫と照合し、バックエンドシステムを即座に更新することができる。ペースの速い小売業界では、mAPは正確で信頼性の高いオペレーションを維持するために重要な役割を果たしています。

ヘルスケアにおける高mAPによる診断精度の向上

医療における診断精度の向上は、医療画像における正確な検出から始まる。YOLO11のようなモデルは、放射線科医が医療スキャンから腫瘍、骨折、その他の異常を発見するのに役立ちます。ここで、平均平均精度は、モデルの臨床的信頼性を評価するために不可欠な指標である。

mAPが高いということは、そのモデルが臨床的意思決定において極めて重要である高い再現性(最も実際の問題を特定すること)と高い精度(誤報を避けること)の両方を達成していることを示す。また、医療におけるIoU閾値は、極めて正確な検出を保証するために、しばしば非常に高く設定される(0.85または0.90)。

しかし、mAPスコアが低いと懸念が生じる。例えば、モデルが腫瘍を見落としたとしよう。診断が遅れたり、誤った治療につながったりする可能性がある。 

mAP使用の長所と短所

物体検出モデルの評価に平均平均精度を使用する主な利点は以下の通りである:

  • 標準化された指標:mAPは物体検出モデルを評価するための業界標準です。mAP値は、異なるモデル間の公平で一貫性のある比較を可能にします。
  • 実世界のパフォーマンスを反映: mAPが高いということは、そのモデルが様々なオブジェクトクラスの検出に優れており、複雑な実世界のシナリオにおいて強力な性能を維持していることを示す。
  • クラスごとの診断:mAPスコアは、各クラスの検出性能を個別に評価する。これにより、性能の低いカテゴリー(自転車や道路標識など)を特定し、それに応じてモデルを微調整することが容易になる。

mAPメトリクスの使用にはさまざまな利点があるが、考慮すべき制限もある。以下は、考慮すべきいくつかの要因である:

  • 技術者以外の利害関係者には難しい:ビジネスチームや臨床チームは、より直感的で理解しやすいメトリクスとは異なり、mAP値を抽象的だと感じるかもしれない。
  • リアルタイムの制約を反映していない:mAPは推論スピードやレイテンシーを考慮していない。

要点

平均平均精度は単なる技術的なスコアではなく、モデルの潜在的な実世界での性能を反映するものであることを見てきた。自律走行システムであれ、小売店のレジであれ、高いmAPスコアはモデルの性能と実用的な準備の信頼できる指標となる。

mAPは不可欠でインパクトのある指標ではあるが、総合的な評価戦略の一部として捉えるべきである。ヘルスケアや自律走行などの重要なアプリケーションでは、mAPだけに頼るのでは不十分だ。 

システムが安全で効率的で、真に意図した目的に適合していることを保証するためには、推論速度(モデルが予測を行う速さ)、モデルサイズ(エッジデバイスへの展開への影響)、定性的エラー分析(モデルが犯す間違いのタイプを理解する)といった追加要素も考慮しなければならない。

成長中のコミュニティと GitHubリポジトリに参加して、コンピュータ・ビジョンについてもっと知りましょう。農業におけるコンピュータビジョンの応用や 物流における AI の応用については、ソリューションのページをご覧ください。ライセンスオプションをチェックして、今すぐ独自のコンピュータビジョンモデルを始めましょう!

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク