オブジェクト検出におけるMean Average Precision (mAP)
オブジェクト検出におけるMean Average Precision (mAP) を理解しましょう。その意味、計算方法、そしてmAPがモデル性能の評価になぜ重要なのかを学びます。

AIの導入は急速に進んでおり、自動運転車から棚の商品を識別できる小売システムに至るまで、さまざまなイノベーションにAIが統合されています。これらのテクノロジーは、機械が視覚データを分析できるようにする人工知能(AI)の一分野であるコンピュータビジョンに依存しています。
コンピュータビジョンシステムやアルゴリズムの精度を測定するために使用される主要な評価指標が、平均精度(mAP)です。mAP指標は、ビジョンAIモデルの予測が実際の予測結果とどの程度一致しているかを示します。
一般的なコンピュータビジョンのタスクに物体検出があります。これはモデルが画像内の複数の物体を識別し、その周囲に境界ボックス(BBox)を描画するものです。mAPは物体検出モデルの性能を評価するための標準的な指標であり、Ultralytics YOLO11のようなディープラーニングモデルをベンチマークするために広く使用されています。
この記事では、平均精度がどのように計算されるのか、また、物体検出モデルをトレーニングまたは評価する人にとってなぜそれが不可欠なのかを解説します。さっそく始めましょう!
Link to this section平均精度(mAP)とは何ですか?#
平均精度は、画像内のさまざまな物体を検出・識別するような、視覚情報検索に関連するタスクにおいて、ディープラーニングモデルがどの程度正確であるかを示すスコアです。例えば、犬、猫、車を含む写真を分析する物体検出モデルを考えてみましょう。信頼性の高いモデルであれば、各物体を認識し、その周囲に境界ボックスとラベルを描画して、どこに何があるかを強調することで物体検出を実行できます。
mAPは、多くの画像やさまざまな種類の物体にわたって、モデルがこのタスクをどれだけうまく実行できるかを示します。モデルが画像内の各物体とその位置を正確に識別しているかどうかをチェックします。スコアは0から1の範囲で、1はモデルがすべてを完璧に検出したことを意味し、0は物体をまったく検出できなかったことを意味します。
Link to this section平均精度(mAP)における主要な概念#
機械学習における平均精度の背後にある概念を探る前に、まず2つの基本的な用語である「正解データ(ground truth)」と「予測」について理解を深めましょう。
正解データ(ground truth)とは、正確な参照データを指し、画像内の物体とその位置がアノテーションと呼ばれるプロセスを通じて人間によって注意深くラベル付けされています。一方、予測はAIモデルが画像を分析した後に提供する結果です。AIモデルの予測を正解データと比較することで、モデルが正しい結果にどれだけ近づいたかを測定できます。

図1. モデルの予測と正解データの境界ボックス。画像提供:著者。
Link to this section混同行列#
混同行列は、物体検出モデルがどれだけ正確かを理解するためによく使用されます。これは、モデルの予測が実際の正解(正解データ)とどのように一致しているかを示す表です。この表から、真陽性(True Positive)、偽陽性(False Positive)、偽陰性(False Negative)、真陰性(True Negative)という4つの主要な要素や結果の内訳を得ることができます。
混同行列におけるこれらの要素の意味は以下の通りです:
- 真陽性(TP): 物体とその位置がモデルによって正しく検出された場合。
- 偽陽性(FP): モデルが検出を行ったが、それが誤っていた場合。
- 偽陰性(FN): 画像内に実際に物体が存在していたにもかかわらず、モデルが検出に失敗した場合。
- 真陰性(TN): モデルが物体の不在を正しく識別した場合。
真陰性は、通常、画像内の多くの空の領域を無視するため、物体検出では一般的に使用されません。しかし、モデルが画像にラベルを割り当てる画像分類のような他のコンピュータビジョンのタスクでは不可欠です。例えば、画像に猫が含まれているかどうかを検出するタスクにおいて、画像に猫が含まれていないときにモデルが正しく「猫なし」と識別した場合、それが真陰性となります。

図2. 混同行列における分類結果。画像提供:著者。
Link to this sectionIntersection over Union (IoU)#
物体検出モデルを評価する上で重要なもう一つの指標がIntersection over Union(IoU)です。このようなビジョンAIモデルの場合、画像内に物体が存在することを検出するだけでは不十分であり、境界ボックスを描画するために、画像内のどこに物体があるかを特定する必要もあります。
IoU指標は、モデルの予測ボックスが実際の正しいボックス(正解データ)とどれだけ一致しているかを測定します。スコアは0から1の間であり、1は完全一致、0は重なりがまったくないことを意味します。
例えば、より高いIoU(0.80や0.85など)は、予測ボックスが正解データのボックスと近い一致を示しており、正確な位置特定ができていることを意味します。IoUが低い(0.30や0.25など)場合は、モデルが物体を正確に特定できなかったことを意味します。
検出が成功したかどうかを判断するために、さまざまな閾値を使用します。一般的なIoU閾値は0.5であり、これは予測ボックスが真陽性としてカウントされるためには、正解データのボックスと少なくとも50%重なっている必要があることを意味します。この閾値以下の重なりはすべて偽陽性とみなされます。

図3. Intersection over Unionの理解。画像提供:著者。
Link to this section適合率(Precision)と再現率(Recall)#
これまでに、物体検出モデルの性能を理解するための基本的な評価指標を探ってきました。これを基盤として、最も重要な指標の2つが適合率と再現率です。これらは、モデルの検出がいかに正確であるかという明確な全体像を提供します。これらが何であるかを見ていきましょう。
適合率(Precision)の値は、モデルの予測のうち、実際にどれだけが正しかったかを教えてくれます。これは、「モデルが検出したと主張したすべての物体のうち、実際にそこに存在していたのはどれくらいか?」という疑問に答えるものです。
一方、再現率(Recall)の値は、画像内に存在するすべての実際の物体をモデルがどれだけ見つけられるかを測定します。これは、「画像内に存在するすべての実際の物体のうち、モデルがどれだけ正しく検出できたか?」という疑問に答えるものです。
適合率と再現率を合わせることで、モデルがどれだけうまく機能しているかについて、より明確な全体像が得られます。例えば、モデルが画像内で10台の車を予測し、そのうち9台が実際に車である場合、適合率は90%(陽性予測)となります。
これらの2つの評価指標には、しばしばトレードオフが発生します。モデルは、完全に自信がある予測のみを行うことで高い適合率を達成できますが、これでは多くの物体を見逃す可能性があり、再現率が低下してしまいます。一方で、至る所に境界ボックスを予測することで非常に高い再現率を達成できますが、これでは適合率が低下してしまいます。

図4. 適合率と再現率。画像提供:著者。
Link to this section平均精度(Average Precision)#
適合率と再現率はモデルが個々の予測でどのように機能するかを理解するのに役立ちますが、平均精度(AP)はより広い視点を提供します。これは、モデルがより多くの物体を検出しようとするにつれて適合率がどのように変化するかを示し、その性能を単一の数値に要約するものです。
平均精度スコアを計算するには、まず各種類の物体に対して、適合率-再現率曲線(またはPR曲線)と呼ばれる結合されたグラフ状の指標を作成します。この曲線は、モデルが予測を増やすにつれて何が起こるかを示しています。
モデルが最も簡単または最も明白な物体のみを検出することから始めるシナリオを考えてみましょう。この段階では、ほとんどの予測が正しいため適合率は高いですが、まだ多くの物体が見逃されているため再現率は低くなります。モデルがより多くの物体(より困難なものや珍しいものを含む)を検出しようとすると、通常、より多くの誤りが導入されます。これが原因で再現率が増加する一方で適合率が低下します。
平均精度とは、曲線の下側の領域(PR曲線のAUC)のことです。領域が大きいほど、モデルはより多くの物体を検出しながらも、予測を正確に保つことに優れていることを意味します。APは各クラスラベルに対して個別に計算されます。
例えば、車、バイク、歩行者を検出できるモデルでは、これら3つのカテゴリそれぞれに対して個別にAP値を計算できます。これは、モデルがどの物体の検出を得意としており、どこにまだ改善の余地があるかを確認するのに役立ちます。

図5. 5つの異なるクラスに対するPR曲線。(ソース)
Link to this section平均精度(Mean Average Precision)#
各物体クラスの平均精度を計算した後でも、すべてのクラスにわたるモデルの全体的な性能を反映する単一のスコアが必要です。これは平均精度の公式を使用して実現できます。これはすべてのカテゴリのAPスコアを平均したものです。
例えば、YOLO11のようなコンピュータビジョンモデルが、車で0.827、オートバイで0.679、トラックで0.355、バスで0.863、自転車で0.982のAPを達成したと仮定しましょう。mAP公式を使用すると、これらの数値を合計し、クラスの総数で以下のように除算できます:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0.743というmAPスコアは、すべての物体クラスにわたってモデルがどれだけうまく機能しているかを判断するための直接的な解決策を提供します。1に近い値は、モデルがほとんどのカテゴリで正確であることを意味し、低い値は一部で苦戦していることを示唆しています。
Link to this sectionコンピュータビジョンにおけるAPとmAPの重要性#
APとmAPがどのように計算され、その構成要素が何であるかを理解できたので、コンピュータビジョンにおけるその重要性の概要を説明します:
-
特定のクラスでAPが低い: 単一クラスのAPが低いことは、多くの場合、モデルがその特定の物体クラスで苦戦していることを意味します。これは、トレーニングデータが不十分であることや、オクルージョン(隠れ)などの画像内の視覚的な課題が原因である可能性があります。
-
位置特定エラー: 低いIoU閾値(mAP@0.50など)ではmAP値が高いものの、高いIoU閾値(mAP@0.75など)で大幅に低下する場合は、モデルが物体を検出できる一方で、それらを正確に特定(位置特定)することに苦戦していることを示しています。
-
過学習(Overfitting): トレーニングデータセットではmAP値が高いのに、検証データセットではmAP値が低い場合は過学習の兆候であり、モデルが新しい画像に対して信頼できなくなっていることを示しています。
Link to this section平均精度の実世界での応用#
次に、mAPのような主要な指標が、現実世界のコンピュータビジョンのユースケースを構築する際にどのように役立つかを探りましょう。
Link to this section自動運転車:なぜ高いmAP値がより安全な道路を意味するのか#
自動運転車に関しては、歩行者、交通標識、自転車利用者、車線境界線を識別するために物体検出が不可欠です。例えば、子供が突然通りを横切った場合、車はその物体(子供)を検出し、その場所を特定し、その動きを追跡し、必要な行動(ブレーキをかける)をとるために数秒しかありません。
YOLO11のようなモデルは、このような高リスクのシナリオでリアルタイムの物体検出を行うように設計されています。これらのケースでは、mAPが安全性の重要な尺度となります。
高いmAPスコアにより、システムが子供を迅速に検出し、正確に位置を特定し、最小限の遅延でブレーキを作動させることが保証されます。mAPが低いと、検出漏れや、子供を他の小さな物体と混同するような危険な誤分類につながる可能性があります。

図6. 道路上の歩行者を検出するために使用されているYOLO11の例。(ソース)
Link to this section正確な商品検出のためのmAPの利用#
同様に、小売において、物体検出モデルは在庫監視やチェックアウトプロセスなどのタスクを自動化するために使用できます。顧客がセルフレジで商品をスキャンする際、検出の誤りはフラストレーションを引き起こす可能性があります。
高いmAPスコアは、モデルが類似した商品を正確に区別し、たとえ商品が密集して配置されていても正確な境界ボックスを描画することを保証します。mAPスコアが低いと、取り違えにつながる可能性があります。例えば、モデルがオレンジジュースのボトルを視覚的に似ているリンゴジュースのボトルと間違えた場合、不正確な請求や在庫報告につながる可能性があります。
YOLO11のようなモデルと統合された小売システムは、リアルタイムで商品を検出し、それらを在庫と照合し、バックエンドシステムを即座に更新できます。動きの速い小売環境において、mAPは業務を正確かつ信頼性の高い状態に保つ上で重要な役割を果たします。
Link to this sectionヘルスケアにおける高いmAPによる診断精度の向上#
ヘルスケアにおける診断精度の向上は、医療画像における正確な検出から始まります。YOLO11のようなモデルは、放射線科医がそれらの医療スキャンから腫瘍、骨折、その他の異常を見つけるのを支援できます。ここで、平均精度はモデルの臨床的信頼性を評価するための不可欠な指標となります。
高いmAPは、モデルが高い再現率(実際の多くの問題を特定する)と高い適合率(誤警報を回避する)の両方を達成していることを示しており、これは臨床的意思決定において重要です。また、ヘルスケアにおけるIoU閾値は、極めて正確な検出を確保するために高く設定されることがよくあります(0.85または0.90)。
しかし、低いmAPスコアは懸念を生じさせる可能性があります。モデルが腫瘍を見逃した場合、診断が遅れたり、不正確な治療につながったりする可能性があります。
Link to this sectionmAPを使用する利点と欠点#
物体検出モデルを評価するために平均精度を使用する主な利点は以下の通りです:
-
標準化された指標: mAPは物体検出モデルを評価するための業界標準です。mAP値により、異なるモデル間での公正かつ一貫した比較が可能になります。
-
現実世界の性能を反映: 高いmAPは、モデルがさまざまな物体クラスの検出に長けており、複雑な現実世界のシナリオでも強力な性能を維持していることを示します。
-
クラスごとの診断: mAPスコアは、各クラスの検出性能を個別に評価します。これにより、パフォーマンスが低いカテゴリ(自転車や交通標識など)を特定し、それに応じてモデルを微調整することが容易になります。
mAP指標を使用することにはさまざまな利点がありますが、考慮すべき制限もいくつかあります。考慮すべき要素をいくつか挙げます:
-
技術者以外のステークホルダーにとって難しい: ビジネスチームや臨床チームは、より直感的で理解しやすい他の指標とは異なり、mAP値を抽象的だと感じることがあります。
-
リアルタイムの制約を反映しない: mAPは、推論速度やレイテンシを考慮していません。これらは、時間に敏感なアプリケーションへのデプロイにおいて極めて重要です。
Link to this section重要なポイント#
平均精度は単なる技術的なスコアではなく、モデルが持つ現実世界での潜在的な性能を反映するものであることが分かりました。自動運転車システムであれ、小売のチェックアウトであれ、高いmAPスコアはモデルの性能と実用的な準備状況を示す信頼できる指標として機能します。
mAPは不可欠で影響力のある指標ですが、包括的な評価戦略の一部として見なされるべきです。ヘルスケアや自動運転のような重要なアプリケーションにおいては、mAPだけに頼るだけでは不十分です。
推論速度(モデルがどれだけ速く予測を行うか)、モデルサイズ(エッジデバイスでのデプロイに影響する)、定性的なエラー分析(モデルが行う間違いの種類を理解する)などの追加要素も、システムが安全で効率的であり、本来の目的に真に適していることを確認するために考慮しなければなりません。
成長を続ける私たちのコミュニティやGitHubリポジトリに参加して、コンピュータビジョンについてさらに詳しく知りましょう。農業におけるコンピュータビジョンや物流におけるAIの応用については、当社のソリューションページをご覧ください。当社のライセンスオプションをチェックして、独自のコンピュータビジョンモデルを今すぐ始めましょう!






