用語集

自信

AI信頼度スコアの定義モデルが予測の確実性を測定する方法、信頼性のしきい値を設定する方法、信頼性と精度を区別する方法を学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)や機械学習(ML)の文脈における信頼度は、モデルが予測に割り当てるスコアを表し、特定の出力についてモデルがどの程度確信しているかを示す。物体検出や 画像分類のようなタスクの場合、検出された物体や割り当てられたクラスラベルには、通常0~1(または0%~100%)の信頼度スコアが付きます。このスコアは、次のようなモデルが行う個々の予測の信頼性を測るのに役立ちます。 Ultralytics YOLO.スコアが高ければ高いほど、モデルはトレーニング中に学習したパターンに基づく予測についてより確実であることを示します。信頼性を理解することは、モデルの出力を解釈し、AI予測に基づいて情報に基づいた意思決定を行う上で、特に自動車ソリューションにおけるAIのようなセーフティ・クリティカルなアプリケーションでは極めて重要です。

自信の決め方

信頼度スコアは通常、ニューラルネットワーク(NN)の出力層から導出される。分類タスクの場合、これはしばしばソフトマックスや シグモイドのような活性化関数を生の出力(logits)に適用して、各クラスの確率のような値を生成する。YOLOようなオブジェクト検出モデルでは、信頼スコアは、オブジェクトが提案されたバウンディングボックスに存在する確率(しばしば「オブジェクトネススコア」と呼ばれる)と、オブジェクトが存在することを条件として、そのオブジェクトが特定のクラスに属する確率を組み合わせることができる。これは、検出の妥当性を評価するために推論プロセス中に使用される重要な出力です。このスコアは、COCOのようなデータセットから学習されたモデルの重みに基づいて計算されます。

自信のしきい値

実際には、モデルからの予測がすべて同じように有用で信頼できるわけではない。信頼度スコアが非常に低い予測は、バックグラウンド・ノイズや不確実な分類であることが多い。これらをフィルタリングするために、通常「信頼度しきい値」が適用される。これはユーザー定義の値(例えば、0.5または50%)であり、この閾値以上の信頼スコアを持つ予測のみが有効な出力とみなされる。適切な閾値の設定は極めて重要であり、しばしば特定のアプリケーションに依存する:

  • 高リコールシナリオ:スクリーニングのための医療画像解析のようなアプリケーションでは、潜在的な発見を見逃す可能性(高リコール)を最小化するために、最初は低いしきい値が使用されるかもしれない。ヘルスケアにおけるAIは、しばしば慎重な閾値のチューニングを伴う。
  • 高精度のシナリオ:自律走行や製造業におけるAIの品質管理のようなアプリケーションでは、確実性の高い予測(高精度)に基づいてのみ行動が取られるようにするため、より高い閾値が好まれ、エラーのリスクを低減する。AIの安全性研究では、ロバストな意思決定が重視される。

信頼度しきい値は、多くの場合、非最大抑制(NMS)のような手法と連携して動作し、同じオブジェクトの重複するバウンディングボックスを削除することで、最終的な検出セットを洗練させます。コマンドラインインターフェース(CLI)またはPython APIを使用して、Ultralytics モデルを使用する際にこのしきい値を簡単に設定できます。最適な閾値を見つけるには、ハイパーパラメーターのチューニングが必要になる場合があります。

実世界での応用

信頼性スコアは、AIモデルを責任を持って効果的に展開するための基本である:

  1. 医療診断サポート:医療スキャン(X線やMRIなど)を分析し、潜在的な異常(腫瘍の検出など)を検出するシステムでは、信頼度スコアがケースの優先順位付けに役立つ。信頼度が低い予測は、放射線科医による精査が必要なあいまいな所見を示すかもしれないが、信頼度が高い予測は、レビュープロセスを効率化できる。放射線科AIの研究では、しばしば信頼度について議論される。
  2. 自律システム: 自動運転車や ロボット工学にとって、信頼性スコアは安全性にとって極めて重要である。歩行者や他の車両を検知した場合(Waymoのアプローチについてはこちら)、システムがブレーキやハンドル操作などのアクションを開始する前に、高い信頼度のしきい値を満たさなければなりません。信頼度の低い検知は無視されるか、それほど重要でない警告が発せられる可能性があります。これにより、確実な場合にのみシステムが決定的な行動を取るようになります。

信頼度とその他の指標

個々の予測の信頼度スコアとモデル全体の評価指標を混同しないことが重要です。関連はありますが、これらはパフォーマンスの異なる側面を測定します:

  • 精度:データセット全体における予測の全体的な正答率を測定する。これはモデルのパフォーマンスの一般的な感覚を提供しますが、個々の予測の確実性を反映するものではありません。モデルの精度が高くても、信頼度の低い予測をすることもあります。
  • 精度:実際に正しかった陽性予測の割合(True Positives / (True Positives + False Positives))を示す。精度が高いということは、誤警報が少ないということです。確信度は、モデルの予測に対する信念を反映します。
  • リコール(感度).モデルが正しく識別した実際の陽性インスタンスの割合を測定する(真陽性 / (真陽性 + 偽陰性))。リコールが高いということは、検出漏れが少ないことを意味する。確信度は、実際の陽性の検出数に直接関係しない。
  • F1-スコア:PrecisionとRecallの調和平均であり、両方のバランスをとる単一の指標を提供する。Confidenceは予測レベルのスコアのまま。
  • 平均平均精度(mAP):異なる信頼度閾値とクラスにわたる精度-再現曲線を要約した、物体検出における一般的な指標。mAPの計算は信頼度閾値を含むが、信頼度スコア自体は個々の検出に適用される。
  • キャリブレーション:信頼度スコアが実際の正しい確率とどの程度一致しているかを指す.よくキャリブレーションされたモデルの信頼度80%の予測は、約80%の確率で正しいはずである。モデルの信頼度スコアは、必ずしも本質的によく較正されているとは限りません(較正に関する研究を参照)。

要約すると、確信度は個々のAI予測の確実性を評価するための価値あるアウトプットであり、実世界のアプリケーションにおいてより良いフィルタリング、優先順位付け、意思決定を可能にする。これは、Ultralytics HUBで追跡されるようなモデルの全体的なパフォーマンスを評価するメトリクスを補完するが、それとは異なるものである。

すべて読む