YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

信頼度

AIの信頼度スコアを定義します。モデルが予測の確実性をどのように評価し、信頼性の閾値を設定し、信頼度と精度を区別するかを学びます。

機械学習では、信頼度スコアは、個々の予測に割り当てられる数値であり、予測が正しいというモデルの確実性を示します。パーセンテージまたは0〜1の確率値として表され、単一のインスタンスに対するモデル自身の出力に対する「信頼」を定量化します。たとえば、オブジェクト検出タスクでは、Ultralytics YOLO11のようなモデルは、画像内の車を識別し、0.95(または95%)の信頼度スコアを割り当てて、その発見について非常に確信していることを示唆する場合があります。このスコアは、ユーザーが実際のシナリオでモデルの結果をフィルタリング、優先順位付け、および解釈するのに役立つ重要な出力です。

信頼性スコアは通常、ニューラルネットワーク(NN)の最終層の出力、多くの場合ソフトマックス関数またはシグモイド関数から導出されます。この値は、特定のレベルを下回る予測を破棄するために信頼性閾値が設定される実用的なアプリケーションにおいて非常に重要です。この閾値を調整することにより、開発者は、すべての関連する検出をキャプチャすることと、偽陽性を最小限に抑えることの間のトレードオフのバランスを取ることができます。これは、モデルのデプロイメントにおける重要な考慮事項です。

実際のアプリケーション

信頼性スコアは、AIシステムをより信頼性が高く、実用的にするために不可欠です。これにより、システムは不確実性を評価し、それに応じて異なる応答をトリガーできます。

  • 自動運転車: 自動運転車では、信頼性スコアは安全性にとって不可欠です。物体検出器が98%の信頼度で歩行者を識別した場合、車両が減速または停止するための明確なシグナルとなります。逆に、30%の信頼度で物体を検出した場合、システムはそれを不確実なものとしてフラグを立て、他のセンサーを使用してその性質を確認してからアクションを実行する可能性があります。これにより、確実性の高い脅威に焦点を当てることで、事故を防ぐことができます。このトピックの詳細については、自動運転車におけるAIの役割についてお読みください。
  • 医療画像解析: AIモデルが病気の兆候について医療スキャンを分析する場合(医療画像処理で腫瘍を検出するなど)、信頼スコアは非常に貴重です。99%の信頼度を持つ検出は、放射線科医のレビューのためにすぐにフラグが立てられます。60%の信頼度を持つ調査結果は、「あいまい」または「詳細なレビューが必要」としてマークされる可能性があり、不確実なケースが誤報で専門家を圧倒することなく、人間の精査を受けることを保証します。FDAは、医療機器におけるAI/MLに関するガイダンスを提供しています

信頼度とその他の指標

個々の予測の信頼度スコアを、モデル全体の評価指標と混同しないことが重要です。関連性はあるものの、それらはパフォーマンスの異なる側面を測定します。

  • 精度:データセット全体における予測の全体的な正答率を測定する。これはモデルのパフォーマンスの一般的な感覚を提供しますが、個々の予測の確実性を反映するものではありません。モデルの精度が高くても、信頼度の低い予測をすることもあります。
  • 精度:実際に正しかった予測の割合を示す。精度が高いということは、誤報が少ないことを意味する。確信度(Confidence):予測に対するモデルの確信度を表します。
  • リコール(感度):モデルが正しく識別した実際のポジティブ・インスタンスの割合を測定する。リコールが高いということは、検出漏れが少ないことを意味する。確信度は、実際にいくつの陽性が発見されたかに直接関係しない。
  • F1-スコア:PrecisionとRecallの調和平均で、両方のバランスをとる単一の指標を提供する。Confidenceは予測レベルのスコアのままであり、モデルのパフォーマンスの総合的な尺度ではない。
  • 平均平均精度(mAP):異なる信頼度閾値とクラスにわたる精度-再現曲線を要約した、物体検出における一般的な指標。mAPの計算は信頼度閾値を含むが、信頼度スコア自体は個々の検出に適用される。
  • キャリブレーション: 信頼性スコアが実際の正しさの確率とどれだけ一致しているかを指します。適切にキャリブレーションされたモデルの80%の信頼性を持つ予測は、約80%の時間で正しいはずです。モデルキャリブレーションに関する研究で議論されているように、最新のニューラルネットワークからの信頼性スコアは、必ずしも本質的に適切にキャリブレーションされているとは限りません。

まとめると、信頼度は個々のAI予測の確実性を評価するための貴重な指標であり、実際のアプリケーションにおけるフィルタリング、優先順位付け、意思決定の改善を可能にします。これは、Ultralytics HUBのようなツールを使用して追跡および分析できる、モデルの全体的なパフォーマンスを評価する指標を補完するものですが、それとは異なります。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました