オブジェクト検出における平均適合率 (mAP) について理解する。その意味、計算方法、そして mAP がモデルの性能評価において重要な理由を学びます。

オブジェクト検出における平均適合率 (mAP) について理解する。その意味、計算方法、そして mAP がモデルの性能評価において重要な理由を学びます。
AIの導入は急速に進んでおり、自動運転車から棚にある商品を識別できる小売システムまで、さまざまなイノベーションにAIが組み込まれています。これらの技術は、マシンが視覚データを分析できるようにする人工知能(AI)の一分野であるコンピュータビジョンに依存しています。
コンピュータビジョンシステムとアルゴリズムの精度を測定するために使用される主要な評価指標は、平均適合率(mAP)です。mAPメトリックは、Vision AIモデルの予測が実際の結果とどれだけ一致するかを示します。
一般的なコンピュータビジョンのタスクは物体検出であり、モデルは画像内の複数のオブジェクトを識別し、それらの周囲にバウンディングボックスを描画します。mAPは、物体検出モデルの性能を評価するために使用される標準的な指標であり、Ultralytics YOLO11のような深層学習モデルのベンチマークとして広く使用されています。
この記事では、平均適合率がどのように計算されるか、そしてそれが物体検出モデルをトレーニングまたは評価する人にとってなぜ不可欠なのかを見ていきます。それでは始めましょう!
平均適合率は、画像内のさまざまな物体を検出および識別するなど、視覚情報検索に関連するタスクにおいて、深層学習モデルがどれだけ正確であるかを示すスコアです。たとえば、犬、猫、車を含む写真を分析する物体検出モデルを考えてみましょう。信頼性の高いモデルは、各物体を認識し、その周囲にバウンディングボックスとラベルを描画して、どこに何があるかを強調表示することにより、物体検出を実行できます。
mAPは、モデルが多くの画像とさまざまな種類のオブジェクトにわたってこのタスクをどれだけうまく実行するかを示します。モデルが各オブジェクトとその画像内の位置を正確に識別するかどうかを確認します。スコアは0から1の範囲で、1はモデルがすべてを完全に検出したことを意味し、0はオブジェクトをまったく検出できなかったことを意味します。
機械学習における平均適合率(mean average precision)の背後にある概念を探る前に、基本的な用語であるグランドトゥルースと予測についてより深く理解しましょう。
Ground truth(グランドトゥルース)とは、正確な参照データのことで、画像内のオブジェクトとその位置が、アノテーションと呼ばれるプロセスを通じて人間によって注意深くラベル付けされています。一方、predictions(予測)は、AIモデルが画像を分析した後に示す結果です。AIモデルの予測をグランドトゥルースと比較することで、モデルがどれだけ正しい結果に近いかを測定できます。
混同行列は、オブジェクト検出モデルの精度を理解するためによく使用されます。これは、モデルの予測が実際の正解(正解データ)とどのように一致するかを示す表です。この表から、真陽性、偽陽性、偽陰性、真陰性という4つの主要な要素または結果の内訳を得ることができます。
これらの要素が混同行列で何を表すかを以下に示します。
真陰性は、画像内の多くの空の領域を通常無視するため、物体検出では一般的に使用されません。ただし、モデルが画像にラベルを割り当てる画像分類など、他のコンピュータビジョンタスクでは不可欠です。たとえば、タスクが画像に猫が含まれているかどうかを検出することであり、画像に猫が含まれていない場合にモデルが正しく「猫なし」を識別した場合、それは真陰性です。
物体検出モデルを評価する上で重要な指標として、Intersection over Union(IoU)があります。このようなVision AIモデルでは、画像内に物体が存在するかどうかを検出するだけでなく、境界ボックスを描画するために、画像内のどこに物体があるかを特定する必要があります。
IoU(Intersection over Union)メトリクスは、モデルが予測したボックスが、実際の正しいボックス(正解)とどれだけ一致するかを測定します。スコアは0から1の間で、1は完全に一致することを意味し、0はまったく重なりがないことを意味します。
例えば、より高いIoU(0.80または0.85など)は、予測されたボックスがグランドトゥルースボックスとほぼ一致し、正確なローカリゼーションを示していることを意味します。より低いIoU(0.30または0.25など)は、モデルがオブジェクトを正確に特定できなかったことを意味します。
検出が成功したかどうかを判断するために、さまざまな閾値を使用します。一般的なIoU閾値は0.5で、これは予測されたボックスが正解のボックスと少なくとも50%重なっている場合に、真陽性としてカウントされることを意味します。この閾値を下回る重複は、偽陽性と見なされます。
これまで、物体検出モデルの性能を理解するための基本的な評価指標をいくつか見てきました。これに基づいて、最も重要な指標の 2 つは適合率と再現率です。これらは、モデルの検出がどれだけ正確であるかを明確に示してくれます。それらが何であるかを見てみましょう。
適合率の値は、モデルの予測が実際にどれだけ正しかったかを示します。モデルが検出したと主張するすべてのオブジェクトのうち、実際にそこに存在したのはいくつですか?という問いに答えます。
一方、リコールの値は、モデルが画像内に存在する実際のオブジェクトをどれだけうまく見つけられるかを測定します。これは、「存在するすべての実際のオブジェクトのうち、モデルはいくつを正しく検出できたか」という問いに答えるものです。
精度と再現率を組み合わせることで、モデルの性能をより明確に把握できます。たとえば、モデルが画像内の車を10台予測し、そのうち9台が実際に車である場合、精度は90%になります(ポジティブな予測)。
これらの2つの評価指標は、多くの場合、トレードオフの関係にあります。モデルは、完全に確信している予測のみを行うことで高い精度値を達成できますが、これにより多くのオブジェクトを見逃す可能性があり、再現率が低下します。一方、ほぼすべての場所にバウンディングボックスを予測することで非常に高い再現率を達成することもできますが、これにより精度が低下します。
適合率と再現率は、個々の予測に対するモデルのパフォーマンスを理解するのに役立ちますが、平均適合率(AP)はより広い視点を提供できます。これは、モデルがより多くのオブジェクトを検出するにつれて、モデルの適合率がどのように変化するかを示し、そのパフォーマンスを単一の数値に要約します。
平均適合率スコアを計算するために、まずオブジェクトのタイプごとに、適合率-再現率曲線(またはPR曲線)と呼ばれる結合されたグラフのようなメトリックを作成できます。この曲線は、モデルがより多くの予測を行うにつれて何が起こるかを示します。
モデルが最も簡単または最も明白なオブジェクトのみを検出することから始めるシナリオを考えてみましょう。この段階では、ほとんどの予測が正しいため、精度は高くなりますが、多くのオブジェクトが見逃されているため、再現率は低くなります。モデルがより多くのオブジェクト、より難しいまたはよりまれなオブジェクトを検出しようとすると、通常、より多くのエラーが発生します。これにより、再現率が向上する一方で、精度が低下します。
平均適合率は、PR曲線下面積(PR曲線のAUC)です。面積が大きいほど、モデルはより多くのオブジェクトを検出しても、予測の精度を高く維持できます。APは、クラスラベルごとに個別に計算されます。
例えば、車、バイク、歩行者を検出できるモデルでは、これら3つのカテゴリそれぞれについてAP値を個別に計算できます。これにより、モデルがどのオブジェクトの検出が得意で、どこを改善する必要があるかを確認できます。
各オブジェクトクラスの平均適合率を計算した後も、すべてのクラスにおけるモデルの全体的なパフォーマンスを反映する単一のスコアが必要です。これは、平均適合率の公式を使用して実現できます。これは、すべてのカテゴリのAPスコアを平均します。
例えば、YOLO11のようなコンピュータビジョンモデルが、車に対して0.827のAP、オートバイに対して0.679のAP、トラックに対して0.355のAP、バスに対して0.863のAP、自転車に対して0.982のAPを達成したと仮定しましょう。mAPの式を使用すると、これらの数値を合計し、次のようにクラスの総数で割ることができます。
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0.743のmAPスコアは、すべてのオブジェクトクラスでモデルがどれだけうまく機能するかを判断するための簡単なソリューションを提供します。1に近い値は、モデルがほとんどのカテゴリで正確であることを意味し、低い値は、一部のカテゴリで苦労していることを示唆しています。
APとmAPの計算方法、およびその構成要素について理解が深まったところで、コンピュータビジョンにおけるこれらの指標の重要性について概説します。
次に、mAPなどの主要な指標が、現実世界のコンピュータビジョンのユースケースを構築する際にどのように役立つかを探ります。
自動運転車に関しては、オブジェクト検出は、歩行者、道路標識、自転車、車線マーキングを識別するために不可欠です。たとえば、子供が突然道路を横切って走ってきた場合、車はオブジェクト(子供)を検出し、その場所を特定し、動きを追跡し、必要なアクション(ブレーキをかける)を実行するまでに数秒しかありません。
YOLO11のようなモデルは、このようなリスクの高いシナリオでのリアルタイム物体検出のために設計されています。このような場合、mAPは安全性の重要な指標となります。
高いmAPスコアは、システムが子供を迅速に検出し、正確にローカライズし、最小限の遅延でブレーキを作動させることを保証します。低いmAPは、検出漏れや、子供を別の小さな物体と混同するなどの危険な誤分類を意味する可能性があります。
同様に、小売では、オブジェクト検出モデルを使用して、在庫監視やチェックアウトプロセスなどのタスクを自動化できます。顧客がセルフレジで商品をスキャンするときに、検出エラーが発生すると、不満につながる可能性があります。
高いmAPスコアは、モデルが類似した製品を正確に区別し、アイテムが密集していても正確なバウンディングボックスを描画することを保証します。低いmAPスコアは、混同につながる可能性があります。たとえば、モデルがオレンジジュースのボトルを視覚的に類似したリンゴジュースのボトルと間違えた場合、誤った請求や不正確な在庫レポートにつながる可能性があります。
YOLO11のようなモデルと統合された小売システムは、製品をリアルタイムで検出し、在庫と照合し、バックエンドシステムを即座に更新できます。ペースの速い小売環境では、mAPは業務を正確かつ信頼性の高い状態に保つ上で重要な役割を果たします。
医療における診断精度の向上は、医用画像処理における正確な検出から始まります。YOLO11のようなモデルは、放射線科医が医療スキャンから腫瘍、骨折、またはその他の異常を発見するのに役立ちます。ここで、平均適合率は、モデルの臨床的信頼性を評価するための重要な指標となります。
高いmAPは、モデルが高い再現率(最も実際の問題を特定する)と高い精度(誤報を回避する)の両方を達成していることを示しており、臨床的意思決定において非常に重要です。また、医療におけるIoUの閾値は、非常に正確な検出を保証するために、非常に高く(0.85または0.90)設定されることがよくあります。
しかし、mAPスコアが低いと懸念が生じる可能性があります。例えば、モデルが腫瘍を見逃した場合、診断が遅れたり、不適切な治療につながる可能性があります。
物体検出モデルの評価に平均適合率(mean average precision)を使用する主な利点を以下に示します。
mAPメトリックを使用することにはさまざまなメリットがありますが、考慮すべき制限事項もいくつかあります。考慮すべき点を以下に示します。
平均適合率(mAP)は単なる技術的なスコアではなく、モデルの潜在的な実世界での性能を反映していることがわかりました。自動運転車システムであろうと、小売店のレジであろうと、高いmAPスコアは、モデルの性能と実用的な準備状況を示す信頼できる指標となります。
mAPは不可欠で影響力のある指標ですが、十分に検討された評価戦略の一部として捉える必要があります。ヘルスケアや自動運転などの重要なアプリケーションでは、mAPだけに頼るだけでは不十分です。
推論速度(モデルが予測を行う速さ)、モデルサイズ(エッジデバイスへの実装に影響)、定性的なエラー分析(モデルが犯す誤りの種類の理解)などの追加要素も考慮して、システムが安全で効率的であり、意図された目的に真に適合していることを確認する必要があります。
成長を続けるコミュニティとGitHubリポジトリに参加して、コンピュータビジョンについてさらに詳しく学びましょう。ソリューションページでは、農業におけるコンピュータビジョンや物流におけるAIの応用についてご紹介しています。ライセンスオプションを確認して、今日から独自のコンピュータビジョンモデルを始めましょう。