機械学習におけるAccuracy vs. Precision vs. Recall
機械学習におけるAccuracy、Precision、Recallについて学びます。混同行列、F1スコア、およびこれらの重要な評価指標の使用方法を探究します。

機械学習(ML)は、データから学習するシステムの構築に焦点を当てた人工知能(AI)の一分野です。これは、機械が画像を解釈するコンピュータビジョンや、人間が使用する言語を理解・生成する自然言語処理など、他の多くのAI分野で中心的な役割を果たしています。
多くの場合、そのようなAIモデルはディープラーニングの手法を用いてデータから予測を行います。これらのシステムは非常に効果的ですが、常に正しい予測を行うわけではありません。正確な出力がある一方で、目標を外すものもあります。
エラーがどのように発生するかを理解することは、モデルのパフォーマンスを評価する上で重要な要素です。パフォーマンスを測定するために、モデル評価メトリクスを使用できます。
一般的な評価メトリクスには、精度(全体的な正解率)、適合率(ポジティブ予測の信頼性)、および再現率(モデルが実際のポジティブをどれだけ識別できたか)が含まれます。これらは一見似ていますが、それぞれモデルの挙動の異なる側面に焦点を当てています。
本記事では、これら各AIモデルのパフォーマンスメトリクスを詳しく見ていきます。また、それらがどのように関連し合い、ユースケースに適したメトリクスを選択する方法についても解説します。それでは始めましょう!
Link to this section機械学習においてモデル評価メトリクスは重要です#
機械学習モデルは、最初はうまく機能しているように見えるかもしれません。しかし、適切な評価メトリクスがなければ、その結果がどれほど正確かを理解することは困難です。これらのメトリクスはモデル評価に構造を与え、「モデルの予測は特定のタスクに対して有益かつ信頼できるか?」という重要な問いに答える手助けをします。
精度、適合率、再現率のようなメトリクスは、AI開発者がモデルの動作状況を測定する明確な方法を提供します。例えば、異なるモデルを比較する際、これらのメトリクスによって特定のタスクに最も適したモデルを見極めることが可能になります。これらはパフォーマンスを評価し、AIプロジェクトの目標に最も適合するモデルを選択するための指針となります。

図1. モデルのトレーニングと評価のワークフロー (ソース)
これらのメトリクスは、パフォーマンスの比較をより客観的なものにします。推測や不完全な観測に頼る代わりに、さまざまな状況下でモデルがどのように振る舞うかについて測定可能な洞察を提供します。そうすることで、各コンテキストにおいてパフォーマンスのどの側面が最も重要であるかを浮き彫りにします。
例えば、メトリクスの選択はアプリケーションによって異なります。AIヘルスケアアプリでは、一部のネガティブケースを誤ってフラグ付けしてしまったとしても、可能な限り多くのポジティブケースを特定することが目標となるため、再現率が重要になります。対照的に、メールのスパムフィルタでは、正規のメールを誤ってスパムと判定しないよう、適合率が優先される場合があります。
Link to this section混同行列:分類メトリクスの基礎#
混同行列は、AIモデルを評価する上で基本となる2x2の表です。実際の成果と予測された成果(モデルが提示した回答)を比較することで、予測を4つのカテゴリに整理します。
この比較により、モデルのパフォーマンスに関する詳細な視点が得られます。これは、行列の値から直接計算される適合率や再現率といった重要な評価メトリクスの基礎を形成します。
表の行は実際のクラスを表し、列は予測されたクラスを表します。各セルにはそのカテゴリの成果の数が表示されます。簡単に言えば、何件の予測が正解で、モデルがどのような種類のエラーを犯したかを示しています。
混同行列は、データが不均衡な場合、つまり一部のカテゴリが他のカテゴリよりも多くの例を持っている場合に特に有用です。また、間違いの種類によってコストが異なる場合にも役立ちます。
例えば、不正検知において、不正行為を捕らえることは不可欠ですが、正規の取引を誤ってフラグ付けすることも問題を引き起こす可能性があります。混同行列を使えば、各タイプのエラーがどの程度の頻度で発生するかが明確になります。
Link to this section混同行列の要素#
混同行列に含まれる各要素の概要は以下の通りです。
- 真陽性(TP): モデルがポジティブなインスタンスを正しく予測した場合、それは真陽性として記録されます。例えば、コンピュータビジョンモデルが画像内の車両を正しく分類する場合などがこれにあたります。
- 真陰性(TN): 真陰性は、モデルがネガティブなインスタンスを正しく識別したときに発生します。例えば、メール分類器が通常のメッセージを「スパムではない」と判定する場合です。
- 偽陽性(FP): 実際にはネガティブなインスタンスに対して、モデルが誤ってポジティブと予測した場合に偽陽性が発生します。これは第一種の誤りとも呼ばれ、不正検知システムが正規の取引を不正とフラグ付けしてしまうような場合に起こります。
- 偽陰性(FN): 偽陰性は、モデルがポジティブなケースを検出できず、誤ってネガティブと予測した場合に記録されます。第二種の誤りとも呼ばれ、実際に病気にかかっている患者の病気を診断ツールが見逃してしまうような場合に起こる可能性があります。

図2. 混同行列の要素 (ソース)
Link to this section混同行列の視覚的表現と解釈#
混同行列はグリッド形式で表示されます。垂直軸が実際のクラス、水平軸が予測されたクラスを表します。正しい予測は対角線上に配置され、真陽性と真陰性を表します。
エラーは対角線の外側に配置され、偽陽性と偽陰性を網羅します。この構造により、強みと弱みを容易に見つけることができます。
Link to this section機械学習における精度とは何か?#
精度(Accuracy)は、機械学習モデルのパフォーマンスを評価するために最も広く使用されているメトリクスの1つです。これは、すべてのクラス全体でどれくらいの頻度で予測が正しいかを測定します。言い換えれば、「AIモデルが行った全予測のうち、どれだけが正解だったか?」という単純な問いに答えるものです。
精度の計算式は、正解予測数(真陽性と真陰の両方を含む)を全予測数で割ったものです。精度は計算が単純で理解しやすいため、モデル評価の一般的な出発点となります。
一般的に、精度はバランスの取れたデータセットを扱う場合に信頼できます。しかし、一方のクラスが他方を圧倒しているような不均衡なデータセットでは、精度は誤解を招く可能性があります。常に多数派のクラスを予測するモデルは、他の少数派クラスを検出できなくても高い精度スコアを達成してしまう可能性があるためです。
例えば、歩行者がほとんど写っていない画像データセットにおいて、すべての画像に対して「歩行者なし」と予測するモデルは、高い精度を達成するかもしれませんが、実際の歩行者を検出することには完全に失敗してしまいます。
これは、精度単体ではモデルがどのような種類の間違いを、どれくらいの頻度で犯しているかが示されないためです。そのため、AIモデルがどれだけうまく機能しているかを完全に理解するには、適合率や再現率のようなメトリクスにも注目することが重要です。
Link to this section適合率の深掘り:誤報の最小化#
適合率(Precision)は、モデルのポジティブ予測の正確さを測定する重要な評価メトリクスです。これは、「ポジティブと予測されたインスタンスのうち、いくつが正解だったか?」という問いに答えます。
適合率の計算式は、真陽性数を真陽性と偽陽性の合計で割ったものです。これは、ポジティブな予測が間違っていた場合に大きなコストがかかるようなケースで特に重要になります。

図3. 精度と適合率の比較 (ソース)
例えば、不正検知において適合率が低いモデルは、多くの正規取引を不正としてフラグ付けしてしまい、ユーザーとサポートチーム双方にとって不要な問題を引き起こします。適合率が高いモデルは、フラグ付けされた取引が実際に不正である可能性を高めることで、このリスクを軽減します。
高い適合率は良いことですが、そればかりを重視するモデルは非常に選択的になりすぎて、実際のポジティブケースを見逃してしまう可能性があります。そのため、パフォーマンスのバランスを保つために、適合率メトリクスは多くの場合、再現率と併せて確認されます。
Link to this section再現率とは何か?#
再現率(Recall)は、モデルが実際のポジティブケースをどれだけ識別できているかを測定するために使用されるメトリクスです。感度または真陽性率としても知られ、「実際のすべてのポジティブインスタンスのうち、モデルはどれだけを正しく検出できたか?」という問いに答えます。
再現率の計算式は、真陽性数を真陽性と偽陰性の合計で割ったものです。高い再現率スコアは、モデルがデータ内の実際のポジティブケースのほとんどを捉えていることを示します。
再現率は、症状を見逃すと治療が遅れ患者がリスクにさらされる可能性があるヘルスケアのような業界において不可欠です。一部のネガティブケースを誤ってフラグ付けしてしまったとしても、真のケースをすべて特定することが最優先事項となります。
しかし、再現率のみを重視するモデルは偽陽性を多く出しすぎてしまい、適合率を低下させ、モデル全体の効率を損なう可能性があります。信頼性の高いAIモデルのパフォーマンスを実現するには、再現率と適合率のバランスを取ることが不可欠です。
Link to this sectionバランス調整:適合率と再現率のトレードオフ#
適合率と再現率はしばしば逆方向に動きます。一方が向上すると、他方が低下することがあります。このトレードオフは機械学習タスクにおける一般的な課題です。
高適合率モデルは、自信がある場合にのみ「ポジティブ」と予測します。これにより誤報は減りますが、実際のポジティブを見逃す可能性があり、結果として再現率が低下します。逆に、すべてのポジティブを捉えようとするモデルは再現率が高まりますが、誤報が増えるリスクがあり、適合率が低下します。
このトレードオフは、モデルの意思決定しきい値を調整するとより明確になります。しきい値とは、システムがスコアや確率をアクションやラベルに変換するために使用するカットオフポイントです。しきい値を下げるとシステムはより頻繁にポジティブとして振る舞うようになり、再現率が上がる可能性がありますが、適合率は下がるかもしれません。逆にしきい値を上げると、モデルはポジティブと予測する回数が減り、適合率は向上しますが、通常再現率は低下します。
例えば、スパム検知に取り組んでいるとします。モデルは、スパムを受信トレイに紛れ込ませるリスクと、正規のメールをブロックしてしまうリスクのバランスを取らなければなりません。厳格なフィルタはスパムを一部見逃す可能性があり、寛容なフィルタは誤って正規のメッセージをブロックしてしまうかもしれません。適切なバランスは、ユースケースと各タイプのエラーのコストによって決まります。
Link to this section適合率–再現率曲線の重要性#
適合率–再現率曲線(PR曲線)は、モデルの意思決定しきい値が変化するにつれて適合率と再現率がどのように変化するかを示します。各ポイントは、両者間の異なるトレードオフを表しています。PR曲線は、1つのクラスの頻度が非常に少ない不均衡なデータセットにおいて特に有用です。
また、これは受信者操作特性(ROC)曲線よりも意味のある洞察を提供します。ROC曲線もまた、異なるしきい値でモデルがどれだけポジティブとネガティブを分離できるかを示しますが、高い適合率と高い再現率の両方を備えたモデルは、グラフの右上隅近くに留まるPR曲線を描き、それが一般的に理想とされます。
Link to this sectionF1スコアの紹介:バランスのための組み合わせメトリクス#
F1スコアは、適合率と再現率のバランスを捉えた単一の数値を提供します。F1スコアは、適合率と再現率の積を2倍し、それを適合率と再現率の和で割ることで算出されます。偽陽性と偽陰性の両方が重要な場合や、不均衡なデータセットを扱う場合、あるいはモデルパフォーマンスのバランスのとれた見方が必要な場合に有用です。

図4. 適合率と再現率を用いたF1スコアの計算 (ソース)
Link to this section精度、適合率、再現率を超えて#
精度、適合率、再現率は不可欠ですが、モデルの種類やデータセットの特性に応じてさらなる洞察を提供する他のメトリクスも存在します。
パフォーマンスのさまざまな側面を評価するのに役立つ、一般的に使用されるメトリクスをいくつか紹介します:
- 特異度(Specificity): モデルが実際のネガティブをどれだけ識別できたかを測定します。偽陽性を避けることが重要な場合に有用です。
- AUC: AUC(曲線下面積)は、モデルがどれだけクラス間を識別できるかを反映した単一のスコアです。
- 対数損失(Log loss): モデルが予測を行う際にどれだけ自信を持っているかを測定し、高い自信で誤った予測を行った場合に大きなペナルティを与えます。ここで自信(confidence)とは、モデルが自身の予測に対してどれだけ確信を持っているかを指します。
- マルチラベル評価: マルチラベルタスクでは、モデル全体のパフォーマンスを反映させるために、ラベル間でメトリクスを平均化します。
Link to this sectionコンピュータビジョンにおける精度、適合率、再現率の応用#
精度、適合率、再現率についての理解が深まったところで、これらのメトリクスがコンピュータビジョンでどのように応用されているかを見ていきましょう。
Ultralytics YOLO11のようなコンピュータビジョンモデルは、画像内にどのようなオブジェクトが存在するかを特定し、境界ボックス(BBox)を使用してそれらを配置する物体検出などのタスクをサポートしています。各予測にはオブジェクトのラベルと位置の両方が含まれるため、ラベルが正しいかどうかを確認するだけよりも評価が複雑になります。

図5. 物体検出にUltralytics YOLO11を使用する例 (ソース)
カメラを使用して棚の上の商品を自動的に追跡する小売(retail)アプリケーションを考えてみます。物体検出モデルは、シリアルボックス、ソーダ缶、水などの商品を識別し、その位置をマークするかもしれません。
この場合、適合率は検出された商品のうちいくつが実際に正しいかを教えてくれます。高い適合率は、影や背景のオブジェクトを商品としてラベル付けするような偽陽性を回避できていることを意味します。再現率は、棚にある実際の商品をモデルがどれだけ検出できたかを示します。高い再現率は見逃しが少ないことを意味し、正確な在庫管理のために極めて重要です。
精度は依然として正解率の一般的な指標となりますが、このような環境では、数個の商品を見逃したり、存在しないものを検出したりするだけで在庫管理に大きな影響を与える可能性があります。そのため、開発者はシステムが信頼に足る実用的なものであることを保証するために、適合率、再現率、精度を組み合わせて確認します。
Link to this section精度、適合率、再現率:重要なポイント#
精度、適合率、再現率はそれぞれ、機械学習モデルのパフォーマンスの異なる側面を示しています。単一のメトリクスに頼ることは誤解を招く可能性があります。
混同行列、適合率–再現率曲線、F1スコアなどのツールやメトリクスは、トレードオフを明らかにし、MLモデルの改善に関する意思決定を導くのに役立ちます。特定のAIソリューションに対して適切なメトリクスの組み合わせを選択することで、モデルが現実のアプリケーションにおいて正確で信頼性が高く、効果的であることを保証できます。
成長を続ける私たちのコミュニティを探索してください!AIについてさらに学ぶには、GitHubリポジトリをチェックしてください。コンピュータビジョンプロジェクトを始める準備はできましたか?当社のライセンスオプションをご覧ください。当社のソリューションページにアクセスして、農業におけるAIやロボット工学におけるビジョンAIについて学びましょう!






