Yolo 深圳
深セン
今すぐ参加

物体検出における平均平均精度mAP

Abirami Vina

6 min read

2025年8月28日

物体検出における平均平均精度mAP)を理解する。その意味、計算、そしてなぜmAP モデルのパフォーマンスを評価するための鍵となるのかを学びます。

AIの導入は急速に進んでおり、自動運転車から棚にある商品を識別できる小売システムまで、さまざまなイノベーションにAIが組み込まれています。これらの技術は、マシンが視覚データを分析できるようにする人工知能(AI)の一分野であるコンピュータビジョンに依存しています。 

コンピュータビジョンシステムやアルゴリズムの精度を測定するために使用される重要な評価指標は、平均平均精度mAPです。mAP 指標は、ビジョンAIモデルの予測が現実世界の結果にどれだけ近いかを示します。

一般的なコンピュータビジョンのタスクは、モデルが画像内の複数のオブジェクトを識別し、それらの周囲にバウンディングボックスを描画するオブジェクト検出です。mAP 、オブジェクト検出モデルの性能を評価するために使用される標準的なメトリックであり、以下のようなディープラーニングモデルのベンチマークに広く使用されています。 Ultralytics YOLO11.

この記事では、平均適合率がどのように計算されるか、そしてそれが物体検出モデルをトレーニングまたは評価する人にとってなぜ不可欠なのかを見ていきます。それでは始めましょう!

平均平均精度mAP何ですか?

平均適合率は、画像内のさまざまな物体を検出および識別するなど、視覚情報検索に関連するタスクにおいて、深層学習モデルがどれだけ正確であるかを示すスコアです。たとえば、犬、猫、車を含む写真を分析する物体検出モデルを考えてみましょう。信頼性の高いモデルは、各物体を認識し、その周囲にバウンディングボックスとラベルを描画して、どこに何があるかを強調表示することにより、物体検出を実行できます。

mAP 、多数の画像と異なる種類の物体に対して、モデルがこのタスクをどの程度実行できるかを示す。モデルが画像内の各オブジェクトとその位置を正確に識別しているかどうかをチェックする。スコアは0から1の範囲で、1はモデルがすべてを完璧に検出したことを意味し、0はどのオブジェクトもdetect できなかったことを意味します。

平均平均精度mAP)の主要概念

機械学習における平均適合率(mean average precision)の背後にある概念を探る前に、基本的な用語であるグランドトゥルースと予測についてより深く理解しましょう。 

Ground truth(グランドトゥルース)とは、正確な参照データのことで、画像内のオブジェクトとその位置が、アノテーションと呼ばれるプロセスを通じて人間によって注意深くラベル付けされています。一方、predictions(予測)は、AIモデルが画像を分析した後に示す結果です。AIモデルの予測をグランドトゥルースと比較することで、モデルがどれだけ正しい結果に近いかを測定できます。 

図1. モデルの予測と正解のバウンディングボックス。画像は著者による。

混同行列

混同行列は、オブジェクト検出モデルの精度を理解するためによく使用されます。これは、モデルの予測が実際の正解(正解データ)とどのように一致するかを示す表です。この表から、真陽性、偽陽性、偽陰性、真陰性という4つの主要な要素または結果の内訳を得ることができます。

これらの要素が混同行列で何を表すかを以下に示します。

  • True positive (TP): オブジェクトとその位置がモデルによって正しく検出されること。
  • 偽陽性(FP): モデルが検出を行ったが、それが誤っていた場合。
  • 偽陰性(FN):
    ‍ 実際には画像内に存在したが、モデルがdetect できなかった物体。
  • True negative (TN): True negativeは、モデルがオブジェクトの不在を正しく識別した場合に発生します。

真陰影は物体検出ではあまり使われません。通常、画像内の多くの空領域を無視するからです。しかし、モデルが画像にラベルを割り当てる 画像分類など、他のコンピュータ・ビジョン・タスクでは不可欠です。例えば、ある画像に猫が写っているかどうかをdetect するタスクがあり、その画像に猫が写っていない場合、モデルは「猫なし」と正しく識別します。

図2. 混同行列における分類結果。画像提供:著者。

インターセクション・オーバー・ユニオンIoU

物体検出モデルを評価するもう一つの重要な指標は、 Intersection over UnionIoU)である。このようなVision AIモデルでは、画像内のオブジェクトの存在を検出するだけでは不十分で、画像内のどこにオブジェクトがあるのかを特定し、バウンディングボックスを描画する必要がある。 

IoU メトリックは、モデルの予測したボックスが、実際の正しいボックス(グランド・トゥルース)にどれだけ近いかを測定する。スコアは0から1の間で、1は完全に一致することを意味し、0はまったく重ならないことを意味する。

例えば、IoU 高い(0.80や0.85のような)場合は、予測されたボックスが地上の真実のボックスとほぼ一致することを意味し、正確な位置特定を示しています。低いIoU (0.30や0.25など)は、モデルが物体の位置を正確に特定できなかったことを意味します。

検出が成功したかどうかを判断するために、我々は異なる閾値を使用する。一般的なIoU 閾値は0.5であり、これは予測されたボックスが真陽性としてカウントされるためには、グラウンド・トゥルースのボックスと少なくとも50%重なる必要があることを意味する。この閾値以下の重なりは誤検出とみなされる。

図3. Intersection over Union(IoU)の理解。画像は著者による。

適合率と再現率

これまで、物体検出モデルの性能を理解するための基本的な評価指標をいくつか見てきました。これに基づいて、最も重要な指標の 2 つは適合率と再現率です。これらは、モデルの検出がどれだけ正確であるかを明確に示してくれます。それらが何であるかを見てみましょう。

精度の値は、モデルの予測のうち、いくつが実際に正しかったかを教えてくれる。モデルがdetectしたと主張するすべての物体のうち、いくつが本当にそこにあったのか?

一方、Recall値は、モデルが画像に存在する実際のオブジェクトをどれだけ検出できたかを測定します。これは、存在するすべての実際のオブジェクトのうち、モデルはいくつを正しくdetectしたかという質問に答えるものです。

精度と再現率を組み合わせることで、モデルの性能をより明確に把握できます。たとえば、モデルが画像内の車を10台予測し、そのうち9台が実際に車である場合、精度は90%になります(ポジティブな予測)。 

これらの2つの評価指標は、多くの場合、トレードオフの関係にあります。モデルは、完全に確信している予測のみを行うことで高い精度値を達成できますが、これにより多くのオブジェクトを見逃す可能性があり、再現率が低下します。一方、ほぼすべての場所にバウンディングボックスを予測することで非常に高い再現率を達成することもできますが、これにより精度が低下します。

図4. 適合率と再現率。画像は著者による。

平均適合率

precisionとrecallは、モデルが個々の予測でどのように動作するかを理解するのに役立ちますが、Average precisionAP)はより広い視野を提供することができます。これは、より多くのオブジェクトをdetect しようとするとき、モデルの精度がどのように変化するかを説明し、その性能を1つの数値に要約します。

平均適合率スコアを計算するために、まずオブジェクトのタイプごとに、適合率-再現率曲線(またはPR曲線)と呼ばれる結合されたグラフのようなメトリックを作成できます。この曲線は、モデルがより多くの予測を行うにつれて何が起こるかを示します。 

モデルが最も簡単な、あるいは最も明白な対象物だけを検出することから始めるシナリオを考えてみよう。この段階では、ほとんどの予測が正しいので精度は高いが、多くの物体がまだ見落とされているので、再現率は低い。モデルが、より難しいオブジェクトやよりレアなオブジェクトを含む、より多くのオブジェクトをdetect しようとすると、通常、より多くのエラーが発生します。このため、精度は低下し、リコールは増加します。

平均精度は曲線下面積(PR曲線のAUC)である。より大きな面積は、モデルがより多くのオブジェクトを検出しても、その予測の正確さを保つのに優れていることを意味する。AP ,各クラス・ラベルについて別々に計算される. 

例えば、車、バイク、歩行者をdetect できるモデルでは、これら3つのカテゴリーごとに個別にAP 値を計算することができる。これにより、モデルがどの物体を検出するのが得意で、どこをまだ改善する必要があるかがわかります。

図5. 5つの異なるクラスのPR曲線。(出典

平均適合率 (Mean Average Precision)

各オブジェクトクラスの平均精度を計算した後、すべてのクラスにわたるモデルの全体的なパフォーマンスを反映する単一のスコアが必要です。これは平均平均精度 式を用いて達成できます。これはすべてのカテゴリのAP スコアを平均します。

例えば、YOLO11 ようなコンピュータビジョンモデルが、自動車で0.827、オートバイで0.679、トラックで0.355、バスで0.863、自転車で0.982のAP 達成したと仮定しよう。mAP 公式を用いると、これらの数値を加算し、クラスの総数で割ると次のようになる: 

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≒ 0.743

0.743のmAP スコアは、モデルがすべてのオブジェクト・クラスにわたってどの程度うまく機能するかを判断するための簡単な解答を提供する。1に近い値は、モデルがほとんどのカテゴリーで正確であることを意味し、低い値は、いくつかのカテゴリーで苦戦していることを示唆する。

コンピュータビジョンにおけるAP mAP 意義

AP mAP どのように計算され、その構成要素が何であるかについて理解を深めたところで、ここではコンピュータビジョンにおけるそれらの意義について概観する:

  • 特定のクラスのAP 低い:単一のクラスに対するAP 低いということは、モデルがその特定のオブジェクトクラスで苦戦していることを意味することが多い。これは、トレーニングデータが不十分であったり、オクルージョンのような画像の視覚的な課題が原因であったりする。
  • 定位エラー: 低いIoU しきい値mAP)でmAP 値が高く、高いIoU しきい値mAP)で大幅に低下する場合、モデルは物体をdetect できるが、正確に定位させるのに苦労していることを示している。
  • オーバーフィッティング:トレーニングデータセットの mAP 値が高く、検証データセットのmAP 値が低い場合、オーバーフィッティングの兆候であり、新しい画像に対してモデルが信頼できなくなる。

平均適合率の現実世界の応用

次に、実際のコンピュータビジョンのユースケースを構築する際に、mAP ような重要なメトリクスがどのように役立つかを探ってみましょう。

自律走行車:なぜmAP 値が高いほど安全な道路なのか?

自動運転車に関しては、物体検知は歩行者、道路標識、自転車、車線標示を識別するために極めて重要である。例えば、子供が突然道路を横切って走ってきた場合、車は数秒で物体(子供)をdetect し、どこにいるかを特定し、その動きをtrack し、必要な行動(ブレーキをかける)をとる。 

YOLO11 ようなモデルは、このような危険度の高いシナリオでリアルタイムに物体を検知するために設計されている。このような場合、mAP 安全性の重要な尺度となる。

mAP スコアが高ければ、システムが子供を素早く検知し、正確に位置を特定し、最小限の遅れでブレーキを作動させることができる。mAP 低いと、子供を別の小さな物体と混同するなど、検出漏れや危険な誤分類を意味する。

図6.YOLO11 道路上の歩行者detect 使用した例。出典

正確な製品検出のためのmAP 使用

同様に、小売では、オブジェクト検出モデルを使用して、在庫監視やチェックアウトプロセスなどのタスクを自動化できます。顧客がセルフレジで商品をスキャンするときに、検出エラーが発生すると、不満につながる可能性があります。

mAP スコアが高ければ、モデルが類似した商品を正確に区別し、商品が密集していても正確なバウンディングボックスを描画します。mAP スコアが低いと、取り違えの原因になります。例えば、モデルがオレンジジュースの瓶と見た目が似ているリンゴジュースの瓶を間違えた場合、誤った請求や不正確な在庫報告につながる可能性があります。

YOLO11 ようなモデルと統合された小売システムは、リアルタイムで商品をdetect し、在庫と照合し、バックエンドシステムを即座に更新することができる。ペースの速い小売業界では、mAP 正確で信頼性の高いオペレーションを維持するために重要な役割を果たしています。

ヘルスケアにおけるmAP 診断精度の向上

医療における診断精度の向上は、医療画像における正確な検出から始まる。YOLO11 ようなモデルは、放射線科医が医療スキャンから腫瘍、骨折、その他の異常を発見するのに役立ちます。ここで、平均平均精度は、モデルの臨床的信頼性を評価するために不可欠な指標である。

mAP 高いということは、そのモデルが臨床的意思決定において極めて重要である高い再現性(最も実際の問題を特定すること)と高い精度(誤報を避けること)の両方を達成していることを示す。また、医療におけるIoU しきい値は、極めて正確な検出を確実にするために、しばしば非常に高く設定される(0.85または0.90)。

しかし、mAP スコアが低いと懸念が生じる。例えば、モデルが腫瘍を見落としたとしよう。診断が遅れたり、誤った治療につながったりする可能性がある。 

mAP使用の長所と短所

物体検出モデルの評価に平均適合率(mean average precision)を使用する主な利点を以下に示します。

  • 標準化された指標: mAP 物体検出モデルを評価するための業界標準です。mAP 値は、異なるモデル間の公平で一貫性のある比較を可能にします。
  • 実世界のパフォーマンスを反映: mAP 高いということは、そのモデルが様々なオブジェクトクラスの検出に優れており、複雑な実世界のシナリオにおいて強力な性能を維持していることを示す。
  • クラスごとの診断: mAP スコアは、各クラスの検出性能を個別に評価する。これにより、性能の低いカテゴリー(自転車や道路標識など)を特定し、それに応じてモデルを微調整することが容易になる。

mAP メトリクスの使用にはさまざまな利点があるが、考慮すべき制限もある。以下は、考慮すべきいくつかの要因である:

  • 技術者以外の利害関係者には難しい:ビジネスチームや臨床チームは、より直感的で理解しやすいメトリクスとは異なり、mAP 値を抽象的だと感じるかもしれない。
  • リアルタイムの制約を反映していない: mAP 推論スピードやレイテンシーを考慮していない。

主なポイント

平均平均精度は単なる技術的なスコアではなく、モデルの潜在的な実世界での性能を反映するものであることを見てきた。自律走行システムであれ、小売店のレジであれ、高いmAP スコアはモデルの性能と実用的な準備の信頼できる指標となる。

mAP 不可欠でインパクトのある指標ではあるが、総合的な評価戦略の一部として捉えるべきである。ヘルスケアや自律走行などの重要なアプリケーションでは、mAP頼るのでは不十分だ。 

推論速度(モデルが予測を行う速さ)、モデルサイズ(エッジデバイスへの実装に影響)、定性的なエラー分析(モデルが犯す誤りの種類の理解)などの追加要素も考慮して、システムが安全で効率的であり、意図された目的に真に適合していることを確認する必要があります。

成長を続けるコミュニティGitHubリポジトリに参加して、コンピュータビジョンについてさらに詳しく学びましょう。ソリューションページでは、農業におけるコンピュータビジョン物流におけるAIの応用についてご紹介しています。ライセンスオプションを確認して、今日から独自のコンピュータビジョンモデルを始めましょう。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる