機械学習における精度、適合率、再現率について学びましょう。混同行列、F1スコア、およびこれらの重要な評価指標の使用方法について解説します。

機械学習における精度、適合率、再現率について学びましょう。混同行列、F1スコア、およびこれらの重要な評価指標の使用方法について解説します。
機械学習(ML)は、データから学習するシステムを作成することに焦点を当てた人工知能(AI)の一分野です。機械が画像を解釈するコンピュータビジョンや、人間言語を理解して生成する自然言語処理など、AIの他の多くの分野で中心的な役割を果たしています。
多くの場合、このようなAIモデルは深層学習技術を使用してデータから予測を行います。このようなシステムは非常に効果的ですが、必ずしも正確な予測を生成するとは限りません。一部の出力は正確である一方、目標を外れるものもあります。
これらのエラーがどのように発生するかを知ることは、モデルの性能を評価する上で重要な要素です。性能を測定するために、モデル評価指標を使用できます。
一般的な評価指標には、精度(全体的な正しさ)、適合率(肯定的な予測の信頼性)、および再現率(モデルが実際の肯定例をどれだけうまく識別するか)が含まれます。最初は似ているように見えるかもしれませんが、それぞれがモデルの動作の異なる部分に焦点を当てています。
この記事では、これらのAIモデルの性能指標を詳しく見ていきます。また、それらが互いにどのように関連しているか、そしてあなたのユースケースに最適なものをどのように選択するかについても解説します。それでは、始めましょう!
機械学習モデルは、最初はうまく機能しているように見えるかもしれません。しかし、適切な評価指標がなければ、その結果がどれほど正確であるかを理解することは困難です。これらの指標は、モデルの評価に構造を与え、「モデルの予測は、特定のタスクに対して有用で信頼できるか?」という重要な質問に答えるのに役立ちます。
精度、適合率、再現率などのメトリクスは、AI開発者がモデルの動作状況を明確に測定する方法を提供します。たとえば、異なるモデルを比較する場合、これらのメトリクスを使用すると、特定のタスクに最適なモデルを確認できます。これらは、パフォーマンスを評価し、AIプロジェクトの目標に最適なモデルの選択を導くのに役立ちます。
これらのメトリックは、パフォーマンスの比較をより客観的にします。推測や不完全な観察に頼る代わりに、さまざまな状況でモデルがどのように動作するかについて、測定可能な洞察を提供します。そうすることで、各コンテキストで最も重要なパフォーマンスの側面を強調表示します。
例えば、メトリックの選択は、多くの場合、アプリケーションによって異なります。AIヘルスケアアプリケーションでは、いくつかのネガティブが誤ってフラグ付けされたとしても、できるだけ多くの陽性ケースを特定することが目標であるため、再現率が重要です。対照的に、電子メールスパムフィルターは、正当な電子メールを誤ってスパムとしてマークすることを避けるために、精度を優先する場合があります。
混同行列は、AIモデルを評価するための基本となる2×2の表です。実際の成果と予測された成果(モデルが与える答え)を比較することにより、予測を4つのカテゴリに整理します。
この比較は、モデルのパフォーマンスの詳細なビューを提供します。これは、マトリックスの値から直接計算される、精度や再現率などの主要な評価指標の基礎となります。
この表の行は実際のクラスを表し、列は予測されたクラスを表しています。各セルには、そのカテゴリにおける結果の数が表示されます。簡単に言うと、どれだけの予測が正しかったか、そしてモデルがどのような種類のエラーを犯したかを示しています。
混同行列は、データが不均衡な場合、つまり一部のカテゴリーが他のカテゴリーよりもはるかに多くのサンプルを持つ場合に特に役立ちます。また、異なる種類の誤りが異なるコストを伴う場合にも役立ちます。
例えば、不正検出では、不正行為を捕捉することが重要ですが、実際のトランザクションに誤ってフラグを立てると、問題が発生する可能性もあります。マトリックスは、各タイプのエラーがどのくらいの頻度で発生するかを明確にします。
混同行列のさまざまな要素の概要をご紹介します。
混同行列は、グリッド形式で表示されます。縦軸は実際のクラスを示し、横軸は予測されたクラスを示します。正しい予測は対角線上に現れ、真陽性および真陰性を表します。
エラーは対角線上にない部分に発生し、偽陽性と偽陰性を網羅します。この構造により、長所と短所を簡単に見つけることができます。
精度は、機械学習モデルの性能を評価するために最も広く使用されている指標の1つです。これは、すべてのクラスにわたって予測がどれくらいの頻度で正しいかを測定します。言い換えれば、AIモデルが行ったすべての予測のうち、どれだけが正しかったのかという単純な質問に答えます。
精度を求める式は、正しい予測の数(真陽性と真陰性の両方を含む)を、予測の総数で割ったものです。精度は計算が簡単で理解しやすいため、モデル評価の一般的な出発点となります。
一般的に、バランスの取れたデータセットを扱う場合、精度は信頼できます。しかし、精度は、あるクラスが他のクラスを圧倒する不均衡なデータセットでは、誤解を招く可能性があります。常に多数派のクラスを予測するモデルは、他の少数派のクラスを検出できなくても、高い精度スコアを達成する可能性があります。
例えば、歩行者を含む画像がごくわずかしかない画像データセットでは、すべての画像に対して「歩行者なし」と予測するモデルでも、高い精度を達成する可能性がありますが、実際の歩行者をまったく検出できない可能性があります。
これは、精度だけでは、モデルがどのような種類のミスをどれくらいの頻度で犯すかを示すことができないためです。そのため、AIモデルの動作を完全に理解するには、適合率や再現率などの指標も確認することが重要です。
適合率は、モデルのポジティブな予測の精度を測る重要な評価指標です。これは、ポジティブと予測されたインスタンスのうち、どれだけが正しかったのかという疑問に答えます。
適合率の計算式は、真陽性数を、真陽性数と偽陽性数の合計で割ったものです。陽性の予測が誤っていた場合にコストがかかる場合に特に重要です。
例えば、不正検出において、精度が低いモデルは、多くの有効なトランザクションを不正としてフラグを立て、ユーザーとサポートチームの両方に不必要な問題を引き起こす可能性があります。精度の高いモデルは、フラグが立てられたトランザクションが実際の不正である可能性を高めることで、このリスクを軽減します。
高精度は良いことですが、精度に焦点を当てすぎているモデルは非常に選択的になり、実際の陽性ケースを見逃す可能性があります。そのため、パフォーマンスのバランスを保つために、精度メトリックはしばしば再現率とともにチェックされます。
再現率は、モデルが実際のポジティブなケースをどれだけうまく識別できるかを測るために使用される指標です。感度または真陽性率として知られており、実際のポジティブなインスタンスのうち、モデルがどれだけ正しく検出したかという疑問に答えます。
再現率を求める式は、真陽性の数を、真陽性と偽陰性の合計で割ったものです。高い再現率スコアは、モデルがデータ内の実際の陽性ケースのほとんどを捉えていることを示します。
リコールは、医療業界のように、症状の検出失敗が治療の遅れや患者へのリスクにつながる業界では不可欠です。一部の陰性ケースが誤ってフラグ付けされたとしても、すべての真のケースを特定することが最優先事項です。
しかし、再現率のみに焦点を当てたモデルは、偽陽性を多く検出しすぎて精度を低下させ、モデル全体の効率を損なう可能性があります。信頼性の高いAIモデルの性能には、再現率と精度とのバランスが不可欠です。
適合率と再現率は、しばしば逆方向に動きます。一方が向上すると、もう一方が低下することがあります。このトレードオフは、機械学習タスクにおける一般的な課題です。
高精度モデルは、確信がある場合にのみ、何かをポジティブとして予測します。これにより、誤報が減りますが、実際にはポジティブなものを見逃す可能性があり、再現率が低下します。すべてのポジティブを捉えようとするモデルは、再現率を高めますが、誤報のリスクが高まり、精度が低下します。
このトレードオフは、モデルの決定閾値を調整するとより明確になります。閾値とは、システムがスコアまたは確率をアクションまたはラベルに変換するために使用するカットオフ値です。閾値を下げると、システムがより頻繁に肯定的に動作するようになり、再現率が向上する可能性がありますが、適合率が低下する可能性があります。閾値を上げると、逆の効果が生じます。モデルが予測する肯定的な結果が少なくなり、適合率は向上しますが、通常は再現率が低下します。
例えば、スパム検出に取り組んでいるとします。モデルは、スパムを受信トレイに入れるリスクと、実際のメールをブロックするリスクのバランスを取る必要があります。厳格なフィルターでは一部のスパムを見逃す可能性があり、より寛容なフィルターでは正当なメッセージを誤ってブロックする可能性があります。適切なバランスは、ユースケースと各タイプのエラーのコストによって異なります。
適合率-再現率曲線(PR曲線)は、モデルの決定閾値が変化するにつれて、適合率と再現率がどのように変化するかを示します。各点は、2つの異なるトレードオフを表しています。PR曲線は、一方のクラスの頻度がはるかに低い、不均衡なデータセットに特に役立ちます。
また、Receiver Operating Characteristic (ROC)曲線よりも有益な洞察が得られます。ROC曲線は、さまざまな決定閾値において、モデルが陽性と陰性をどれだけ分離できるかを示すものです。高い適合率と高い再現率の両方を持つモデルは、適合率-再現率曲線が右上隅付近にとどまり、一般的に理想的です。
F1スコアは、適合率と再現率のバランスを捉えた単一の値を提供します。F1スコアは、適合率と再現率の積の2倍を、適合率と再現率の和で割ったものとして計算されます。偽陽性と偽陰性の両方が重要な場合や、不均衡なデータセットを扱う場合、またはモデルのパフォーマンスのバランスの取れたビューが必要な場合に役立ちます。
精度、適合率、再現率が不可欠ですが、他の指標は、モデルの種類とデータセットの特性に基づいて追加の洞察を提供します。
パフォーマンスのさまざまな側面を評価するのに役立つ、一般的に使用される指標をいくつかご紹介します。
精度、適合率、再現率について明確に理解できたところで、これらの指標がコンピュータビジョンでどのように適用されるかを順を追って説明します。
Ultralytics YOLO11のようなコンピュータビジョンモデルは、物体検出などのタスクをサポートしています。物体検出では、モデルは画像内に存在する物体を識別し、バウンディングボックスを使ってその位置を特定します。各予測には、物体のラベルとその位置が含まれているため、ラベルが正しいかどうかを単純に確認するよりも評価が複雑になります。
小売アプリケーションを考えてみましょう。ここでは、カメラを使用して棚にある商品を自動的に追跡します。オブジェクト検出モデルは、シリアル箱、ソーダ缶、または水のボトルなどのアイテムを識別し、それらの位置を特定します。
この場合、適合率は、検出されたアイテムのうち実際に正しいものがどれだけあるかを示します。高い適合率は、システムが影や背景オブジェクトを製品としてラベル付けするなどの誤検出を回避することを意味します。再現率は、モデルが棚にある実際の製品をどれだけ検出できたかを示します。高い再現率は、見逃されるアイテムが少ないことを意味し、これは正確な在庫数を把握するために重要です。
精度は依然として正しさの一般的な指標となりますが、このような状況では、いくつかの製品を見逃したり、そこにないものを検出したりすると、在庫管理に大きな影響を与える可能性があります。そのため、開発者は、システムが信頼性が高く、実際の使用に適していることを確認するために、適合率、再現率、精度を総合的に評価します。
精度、適合率、再現率はそれぞれ、機械学習モデルのパフォーマンスの異なる側面を示しています。1つの指標だけに頼ると、誤解を招く可能性があります。
混同行列、適合率-再現率曲線、F1スコアなどのツールとメトリクスは、MLモデルの改善に関するトレードオフを明らかにし、意思決定を導くのに役立ちます。特定のAIソリューションに適したメトリクスの組み合わせを選択することで、モデルが正確で信頼性が高く、実際のアプリケーションで効果的であることを保証できます。
成長を続けるコミュニティに参加しませんか? AIについてさらに詳しく知りたい方は、GitHubリポジトリをご覧ください。コンピュータビジョンのプロジェクトを始める準備はできましたか? ライセンスオプションをご覧ください。ソリューションページでは、農業におけるAIやロボット工学におけるVision AIについてご紹介しています。