YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

F1スコア

機械学習におけるF1スコアの重要性をご覧ください!最適なモデル評価のために、適合率と再現率のバランスをどのように取るかを学びます。

F1スコアは、分類モデルの性能を評価するために機械学習で広く使用されている指標です。これは、他の2つの重要な指標である適合率再現率を巧みに組み合わせて1つの値にしたものです。F1スコアは、適合率と再現率の調和平均として、モデルの性能をよりバランス良く評価できます。特に、一方のクラスが他方よりもはるかに頻繁に出現する不均衡なデータセットを扱う場合に有効です。このようなシナリオでは、高い精度スコアが誤解を招く可能性がありますが、F1スコアは、少数派のクラスを正しく識別するモデルの有効性をより適切に把握できます。

F1スコアを完全に理解するには、その構成要素を理解することが不可欠です。適合率(Precision)は、「モデルによって行われた陽性予測のうち、実際に正しかったものはどれくらいか?」という問いに答えます。一方、再現率(Recall)は、「実際の陽性インスタンスのうち、モデルが正しく識別できたものはどれくらいか?」という問いに答えます。F1スコアは、これら2つの指標を調和させ、一方の指標が優れていても、もう一方の指標が著しく劣るモデルにはペナルティを与えます。F1スコアは、1(完全な適合率と再現率)で最高の値を、0で最悪の値を示します。このバランスは、偽陽性と偽陰性の両方が大きなコストを伴う多くの現実世界のアプリケーションにおいて重要です。モデルのトレーニング中にこの指標を追跡することは、MLOpsにおける標準的なプラクティスです。

F1スコアの活用:実世界の例

F1スコアは、誤分類の結果が重大となるさまざまな人工知能(AI)アプリケーションにおいて重要です。

  1. 疾患検出のための医用画像解析: コンピュータビジョン(CV)を使用してスキャンから癌性腫瘍を検出するように設計されたAIモデルを検討してください。

    • 偽陰性(低い再現率)とは、癌が存在する場合にそれを検出できないことを意味し、患者に深刻な結果をもたらす可能性があります。
    • 偽陽性(低い精度)は、実際には癌ではないのに癌と診断することを意味し、不必要なストレス、コスト、さらなる侵襲的な検査につながります。
    • F1スコアは、実際の症例を捉えること(再現率)と誤診を避けること(適合率)のバランスを取ることにより、AIヘルスケアソリューションで使用されるモデルの評価に役立ちます。このようなモデルのトレーニングには、脳腫瘍検出データセットのようなデータセットが使用される場合があります。
  2. スパムメールフィルタリング: メールサービスでは、分類モデルを使用してスパムを識別します。

    • できるだけ多くのスパムを捕捉するには、高い再現率が必要です。スパムを見逃す(偽陰性)と、ユーザーが不快に感じます。
    • 正当なメール(「ハム」)をスパム(偽陽性)としてマークすることを避けるためには、高い精度が不可欠です。重要なメールを誤って分類すると、非常に問題になる可能性があります。
    • F1スコアは、重要なメッセージを失うことなく迷惑メールをフィルタリングする必要性のバランスを取りながら、スパムフィルタの全体的な有効性を評価するための適切な指標となります。これには、自然言語処理(NLP)の技術がよく用いられます。

F1スコアは他の指標とどう違うのですか?

F1スコアと他の評価指標との違いを理解することは、プロジェクトに最適なものを選択するための鍵となります。

  • F1スコア vs. 精度: 精度は、予測の総数に対する正しい予測の割合です。理解しやすいですが、不均衡な分類問題ではうまく機能しません。F1スコアは、正のクラスのパフォーマンスに焦点を当てているため、このような場合にしばしば好まれます。
  • F1スコア vs. 適合率と再現率: F1スコアは、適合率再現率を1つの指標に組み合わせたものです。ただし、アプリケーションの目標によっては、一方を他方よりも優先して最適化したい場合があります。例えば、空港のセキュリティスクリーニングでは、適合率よりも再現率(潜在的な脅威をすべて見つけること)を最大化することがより重要です。この適合率と再現率のトレードオフを理解することが基本です。
  • F1スコア vs. 平均適合率(mAP) F1スコアは特定の信頼度閾値での分類性能を評価しますが、mAPは物体検出タスクの標準的な指標です。mAPスコアは、異なる閾値における適合率-再現率曲線を要約し、オブジェクトを特定して分類するモデルの能力をより包括的に評価します。Ultralytics HUBのようなプラットフォームは、モデル開発中にこれらの指標を追跡するのに役立ちます。
  • F1スコア vs. AUC(曲線下面積) AUCは、受信者動作特性(ROC)曲線から計算され、可能なすべての閾値におけるクラスを区別するモデルの能力を表します。対照的に、F1スコアは、単一の特定の閾値に対して計算されます。

mAPはUltralytics YOLO11のような物体検出モデルの主要な指標ですが、F1スコアはこれらのモデルが実行できる画像分類タスクにとって重要です。F1スコアをしっかりと理解することは、深層学習における分類問題に取り組むすべての開発者にとって不可欠です。COCOのようなデータセットでベンチマークされていることが多いさまざまなYOLOモデルのパフォーマンスを比較できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました