用語集

F1スコア

機械学習におけるF1スコアの重要性を知る!最適なモデル評価のために、精度と想起のバランスをどのようにとるかを学びましょう。

F1スコアは、分類モデルの性能を評価するために機械学習で広く使われている指標である。F1-Scoreは、他の2つの重要な指標-PrecisionとRecall-を1つの値に巧みに組み合わせている。精度と想起の調和平均として、F1-Scoreはモデルのパフォーマンスのよりバランスの取れた尺度を提供します。このようなシナリオでは、高い精度スコアは誤解を招く可能性がありますが、F1-Scoreは少数クラスを正しく識別するモデルの有効性をよりよく理解することができます。

F1スコアを完全に把握するには、その構成要素を理解することが不可欠である。プレシジョンは、"モデルによってなされたすべての肯定的な予測のうち、実際に正しかったものはいくつあるか?"という問いに答える。一方、Recallは、"すべての実際の肯定的なインスタンスのうち、モデルはいくつを正しく識別したか?"という質問に答えます。F1-Scoreはこの2つの指標を調和させ、一方の指標に優れ、もう一方の指標を著しく犠牲にしたモデルに罰を与えます。このバランスは、偽陽性と偽陰性の両方が大きなコストを伴う多くの実世界のアプリケーションにおいて極めて重要です。モデル学習中にこの指標を追跡することは、MLOpsの標準的なプラクティスである。

F1スコアの実例:実例

F1スコアは、誤分類が重大な結果をもたらす様々な人工知能(AI)アプリケーションにおいて重要である:

  1. 疾患検出のための医療画像解析 コンピュータ・ビジョン(CV)を使ってスキャン画像から癌腫瘍を検出するように設計されたAIモデルを考えてみよう。

    • 偽陰性(想起率が低い)とは、がんが存在するのに発見できなかったことを意味し、患者に深刻な結果をもたらす可能性がある。
    • 偽陽性(精度が低い)とは、がんがないのにがんと診断することであり、不必要なストレスやコスト、さらなる侵襲的検査につながる。
    • F1スコアは、AIヘルスケアソリューションで使用されるようなモデルを評価するのに役立ち、実際の症例を捉えること(再現性)と誤診を避けること(精度)のバランスを保証する。このようなモデルのトレーニングには、脳腫瘍検出データセットのようなデータセットが使われるかもしれない。
  2. スパムメールのフィルタリング電子メールサービスは、スパムを識別するために分類モデルを使用します。

    • 可能な限り多くのスパムを捕捉するためには、高い想起率が必要である。スパムの見逃し(偽陰性)はユーザーを困らせる。
    • 正当なメール("ハム")をスパム(偽陽性)と判定しないためには、高い精度が不可欠です。重要なメールを誤って分類することは非常に問題になります。
    • F1-Scoreはスパムフィルターの全体的な有効性を評価するのに適した尺度を提供し、重要なメッセージを失うことなくジャンクをフィルターする必要性のバランスをとる。これはしばしば自然言語処理(NLP)の技術を含みます。

F1スコアと他の指標との違い

F1スコアとその他の評価指標の違いを理解することが、プロジェクトに適した評価指標を選ぶ鍵となる。

  • F1-スコア対精度: 精度は、予測の総数に対する正しい予測の比率である。理解するのは簡単だが、不均衡な分類問題では性能が低い。F1-Scoreは、正クラスのパフォーマンスに焦点を当てるので、このようなケースではしばしば好まれます。
  • F1-Score対PrecisionおよびRecall:F1スコアはPrecisionと Recallを1つの指標にまとめたものです。しかし、アプリケーションの目的によっては、どちらか一方を最適化したい場合もあります。例えば、空港のセキュリティ・スクリーニングでは、リコール(潜在的な脅威をすべて見つけること)を最大化することが、精度よりも重要です。この精度とリコールのトレードオフを理解することは基本です。
  • F1-スコアと平均平均精度(mAP)の比較:F1スコアが特定の信頼閾値における分類性能を評価するのに対して、mAPは物体検出タスクの標準的な指標です。mAPスコアは、異なる閾値におけるPrecision-Recall曲線を要約し、オブジェクトを検出し分類するモデルの能力をより包括的に評価します。Ultralytics HUBのようなプラットフォームは、モデル開発中にこれらのメトリクスを追跡するのに役立ちます。
  • F1-スコアとAUC(曲線下面積)の比較:AUCは、ROC(Receiver Operating Characteristic)曲線から計算され、すべての可能なしきい値にわたってクラスを区別するモデルの能力を表す。対照的にF1-Scoreは、1つの特定のしきい値について計算されます。

mAPはUltralytics YOLO11のような物体検出モデルにとって主要な指標であるが、F1-Scoreはこれらのモデルが実行できる画像分類タスクにとっても極めて重要である。F1-Scoreをしっかりと理解することは、ディープラーニングの分類問題に取り組む開発者にとって不可欠です。COCOのようなデータセットでベンチマークされることが多い、さまざまなYOLOモデルのパフォーマンスを比較することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク