用語集

曲線下面積(AUC)

MLモデル評価における曲線下面積(AUC)の重要性を学びます。AUCの利点、ROC曲線の洞察、実際のアプリケーションをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

曲線下面積(AUC:Area Under the Curve)は、主に機械学習(ML)において2値分類モデルの評価に用いられる基本的な性能指標である。これは、すべての可能な分類しきい値にわたって、正クラスと負クラスを区別するモデルの能力を定量化する。AUCスコアは0から1の範囲で、値が高いほどモデルの性能が良いことを示す。スコアが0.5のモデルは、ランダムな偶然の産物よりも性能が良くないが、クラスを完璧に分離する完璧なモデルは、AUC 1.0を達成する。この指標は、特定のしきい値の選択に依存しない、分類性能の単一の総合的な尺度を提供します。

ROC曲線の理解

AUC値は、ROC(Receiver Operating Characteristic)曲線から直接導かれる。ROC曲線は,識別しきい値を変化させたときの2値分類器の診断能力を示すグラフ・プロットである.これは、さまざまなしきい値設定における、x軸の偽陽性率(FPR)に対するy軸の真陽性率(TPR)(感度またはRecallとしても知られる)をプロットしたものである。AUCは、このROC曲線の下にある2次元の領域全体を表す。ROC曲線の包括的な概要は、ウィキペディアに掲載されている

AUCの解釈

AUCは、モデルがランダムに選ばれた肯定的なインスタンスを、ランダムに選ばれた否定的なインスタンスよりも上位にランク付けする確率として解釈される。これは、モデルの全体的な識別力の尺度となる。AUCの主な利点の1つは、Accuracyのようなメトリクスと比較して、クラスの不均衡に対して相対的に鈍感であることである。一方のクラスが他方のクラスよりも圧倒的に多いデータセット(実世界の問題でよくあるシナリオ)では、accuracyは誤解を招く可能性がある。AUCが1に近いほど、分離性に優れたモデルであることを示し、一方AUCが0.5に近いほど、ランダムな推測と同様に、識別能力が低いことを示す。これらの解釈を理解することは、効果的なモデル評価のために非常に重要である。

AIとMLの応用

AUCは、バイナリ分類タスクが重要である様々な領域で広く採用されている。以下に2つの例を示す:

  1. 医療診断: 医療画像解析では、疾患(腫瘍、糖尿病性網膜症など)の有無を検出するモデルがしばしば学習される。AUCは、ヘルスケアにおけるこれらのAIモデルが、異なる診断しきい値にわたって、画像に基づいて健康な患者と病気の患者をどの程度区別できるかを評価するために使用される。医学研究におけるAUCの重要性はよく知られている
  2. 不正検知:金融機関は不正取引を特定するためにMLモデルを使用する。これは古典的な二値分類問題(不正かそうでないか)である。AUCは、金融におけるAIに不可欠な誤報を最小限に抑えながら、潜在的な不正行為にフラグを立てるモデルの全体的な有効性を評価するのに役立ちます。

以下のような多くのディープラーニング(DL)フレームワークやライブラリがある。 PyTorchTensorFlowなど、多くのディープラーニング(DL)フレームワークやライブラリが、これらの分類器の構築に使用されている。Scikit-learnのようなツールは、ROC AUCスコアを計算する便利な関数を提供し、評価プロセスを簡素化する。Ultralytics HUBのようなプラットフォームも、このようなメトリクスが関連するモデルのトレーニングと評価を容易にする。

AUCと他の指標との比較

AUCは価値ある指標であるが、コンピュータビジョン(CV)やMLで使われる他の評価指標との違いを理解することが重要である:

  • AUC vs. 精度: 精度は予測の全体的な正しさを測定するが、不均衡なデータセットでは誤解を招く可能性がある。AUCは閾値に依存しない分離性の尺度を提供し、そのような場合により信頼できる。
  • AUC対Precision-Recall.正のクラスがまれであり、主要な関心事である不均衡なデータセット(例:まれな病気の検出)の場合、ROC AUCよりもPrecision-Recall曲線とそれに対応する面積(AUC-PR)の方が有益である可能性がある。Precisionや Recallのような指標は、特に正のクラスに関する性能に焦点を当てる。F1スコアは、プレシジョンとリコールのバランスもとる。
  • AUCとmAP/IoUの比較:AUCは主にバイナリ分類タスクに使用される。オブジェクト検出タスクでは Ultralytics YOLO平均平均精度(mAP)やIntersection over Union(IoU)などのメトリクスが標準的です。これらのメトリクスは、バウンディング・ボックスを使用して検出されたオブジェクトの分類精度とローカライズ精度の両方を評価します。YOLO パフォーマンス・メトリクスの詳細はこちらをご覧ください。異なるモデルの比較には、Ultralytics モデル比較に見られるように、しばしばこれらの特定のメトリクスの分析が含まれます。

適切なメトリックの選択は、特定の問題、データセットの特性(クラスのバランスなど)、AIプロジェクトの目標に依存する。AUCは、そのロバスト性と解釈可能性により、バイナリ分類のパフォーマンスを評価するための基礎であり続けている。

すべて読む