Yolo 深圳
深セン
今すぐ参加

イノベーションの影響を評価するためのAIパフォーマンス測定

Abirami Vina

5分で読めます

2024年8月22日

適切なKPIとパフォーマンス指標でAIイノベーションの成功を監視できます。AIアプリケーションの影響をtrack し、最適化する方法をご覧ください。

これまで、ヘルスケア製造業観光業など、さまざまな業界でのAIの活用方法について見てきました。また、AIが日々の業務をどのように改善できるか主要なAIビジネスのアイデアについても議論してきました。これらの議論はすべて、必然的に同じ重要な疑問につながります。それは、AIの実装の成功をどのように測定できるかということです。AIソリューションを導入するだけでは十分ではありません。これらのソリューションが実際に成果を上げていることを確認することが、状況を大きく変えるのです。 

AIモデルがプロセスをより効率的にし、イノベーションを促進し、問題を解決する上で本当に効果的かどうかを判断するために、AIパフォーマンス指標を測定できます。適切な重要業績評価指標(KPI)に焦点を当てることで、AIソリューションがどれだけうまく機能しているか、どこを改善する必要があるかを理解できます。

この記事では、最も関連性の高いKPIを使用してAI実装の成功を測定する方法を見ていきます。ビジネスKPIとAIパフォーマンスKPIの違いを取り上げ、適合率や再現率などの主要な指標について説明し、特定のAIソリューションに最適なKPIを選択するのに役立ちます。

AIビジネスKPIとAIパフォーマンスKPIの違い

__wf_reserved_inherit
図1. AIビジネスKPIとAIパフォーマンスKPIの比較。

KPIについて考えるとき、特にエンタープライズAIについて話す場合、投資収益率(ROI)、コスト削減、または収益の創出など、すべてがビジネス指標に関するものだと考えるのは自然です。これらのAIビジネスKPIは、AIが企業の全体的な成功にどのように影響するかを測定し、より広範なビジネス目標と一致します。 

ただし、AIパフォーマンスKPIは、精度、適合率、再現率などの指標を使用して、AIシステム自体の機能状況に焦点を当てています。これらの指標の詳細については以下で説明しますが、本質的に、ビジネスKPIがAIの財務的および戦略的利点を示す一方で、パフォーマンスKPIはAIモデルが効果的に機能していることを確認します。

特定の指標は、実際には両方の目的に役立ちます。たとえば、タスクの完了に必要な時間やリソースの削減など、効率の向上は、パフォーマンスKPI(AIソリューションがどれだけうまく機能しているかを示す)とビジネスKPI(コスト削減と生産性の向上を測定する)の両方になります。顧客満足度は、もう1つのクロスオーバー指標です。これは、技術的なパフォーマンスと全体的なビジネス目標への影響の両方の観点から、AIを活用したカスタマーサービスツールの成功を反映できます。

主要なAIパフォーマンス指標の理解

AIモデルのパフォーマンスを測定するために使用される一般的な指標がいくつかあります。まず、それらの定義と計算方法を見ていきます。次に、これらの指標をどのように監視できるかを見ていきます。

適合率

精度とは、AIモデルがどれだけ正確に真陽性(モデルが対象物や条件を想定通りに正しく識別した場合)を識別できるかを測定する指標である。例えば、顔認識システムでは、真陽性は、システムが以下のように訓練された人物の顔を正しく認識し、識別した場合に発生する。 detect

適合率を計算するには、まず真陽性の数を数えます。次に、これをモデルが陽性とラベル付けしたアイテムの総数で割ります。この合計には、正しい識別と間違い(偽陽性と呼ばれます)の両方が含まれます。基本的に、適合率は、モデルが何かを認識したと主張するときに、どれくらいの頻度で正しいかを示します。

__wf_reserved_inherit
図2. 適合率の理解。

これは、偽陽性の結果がコストがかかるか、破壊的である可能性があるシナリオで特に重要です。たとえば、自動製造では、高い適合率は、システムが不良品をより正確に識別し、良品の不必要な廃棄または再加工を防ぐことができることを示します。もう1つの良い例は、セキュリティ監視です。高い適合率は、誤警報を最小限に抑え、セキュリティ対応が必要な真の脅威のみに焦点を当てるのに役立ちます。

再現率

リコールは、データセット内のすべての関連するインスタンス、つまり真陽性を識別するAIモデルの能力を測定するのに役立ちます。簡単に言えば、AIシステムが、detectように設計された状態やオブジェクトの実際のすべてのケースをどれだけ捕捉できるかを表します。リコールは、正しく検出された数を、検出されるべきであった陽性ケースの総数で割ることで計算できます(モデルが正しく識別したケースと見落としたケースの両方が含まれます)。

がん検出に使用されるAI対応の医療画像システムを考えてみましょう。このコンテキストでの再現率は、システムが正しく識別する実際の症例の割合を反映しています。がんの診断を見逃すと患者のケアに深刻な結果をもたらす可能性があるため、このようなシナリオでは高い再現率が不可欠です。

適合率と再現率

適合率と再現率は、AIモデルの性能を評価する上で、表裏一体の関係にあり、しばしばバランスが求められます。一方の指標を改善すると、他方の指標が犠牲になることが多いという課題があります。 

適合率を高くすることを優先するとしましょう。モデルはより選択的になり、確信度の高い陽性のみを識別できるようになるかもしれません。一方、再現率の向上を目指すと、モデルはより多くの陽性を識別するかもしれませんが、偽陽性も増え、結果的に適合率が低下する可能性があります。 

重要なのは、アプリケーションの具体的なニーズに基づいて、適合率と再現率の適切なバランスを見つけることです。このための有用なツールが、異なる閾値における2つの指標の関係を示す適合率-再現率曲線です。この曲線を分析することで、特定のユースケースにおいてモデルが最適な性能を発揮するポイントを特定できます。このトレードオフを理解することは、意図されたユースケースに対して最適な性能を発揮するようにAIモデルを微調整する際に役立ちます。

__wf_reserved_inherit
図3. 適合率-再現率曲線の例。

平均平均精度mAP

平均平均精度mAP)は、物体の検出のようなタスクにおけるAIモデルの性能を評価するために使用される指標である。 classifymAP 、そのモデルが認識するように訓練されたすべての異なるカテゴリーにわたって、どの程度うまく機能するかを示す単一のスコアを提供します。その計算方法を見てみよう。

プレシジョン-リコール曲線の下の面積は,そのクラスの平均プレシジョンAP)を与えます.AP ,さまざまな信頼レベル(信頼レベルとは,モデルがその予測においてどの程度確実であるかを意味する)にわたって精度と想起の両方を考慮し,モデルが特定のクラスについてどの程度正確に予測を行うかを測定する.各クラスについてAP 計算されると、mAP すべてのクラスにわたってこれらのAP 値を平均することによって決定されます。

__wf_reserved_inherit
図4. さまざまなクラスの平均適合率。

mAP 、歩行者、車両、交通標識など複数の物体を同時に検出する必要がある自律走行のようなアプリケーションで有用です。mAP スコアが高いということは、そのモデルがすべてのカテゴリーで一貫して優れた性能を発揮していることを意味し、幅広いシナリオで信頼性と精度を発揮する。

パフォーマンス指標を簡単に計算

主要なAIパフォーマンス指標の計算式や計算方法は、難しく思えるかもしれない。しかし、Ultralytics パッケージのようなツールは、それをシンプルかつ迅速に行うことができます。オブジェクト検出セグメンテーション分類タスクのいずれに取り組んでいる場合でも、Ultralytics 、精度、リコール、平均平均精度mAP)などの重要なメトリクスを迅速に計算するために必要なユーティリティを提供します。

Ultralytics使用してパフォーマンス・メトリクスの計算を開始するには、以下のようにUltralytics パッケージをインストールします。

この例では、事前にトレーニングされたYOLOv8 モデルをロードし、パフォーマンスメトリクスの検証に使用しますが、 Ultralytics提供するサポートされているモデルのどれでもロードできます。以下はその方法です:

モデルがロードされると、データセットに対して検証を行うことができます。以下のコード・スニペットは、precision、recall、mAP含む様々なパフォーマンス・メトリクスの計算に役立ちます:

Ultralytics ようなツールを使うことで、パフォーマンス指標の計算が非常に簡単になるため、評価プロセスの詳細を気にする時間を減らし、モデルの改善に多くの時間を費やすことができます。

AIのパフォーマンスは、デプロイ後にどのように測定されますか?

AIモデルを開発する際、管理された環境でそのパフォーマンスをテストするのは簡単です。しかし、モデルがデプロイされると、事態はより複雑になる可能性があります。幸いなことに、デプロイ後のAIソリューションを監視するのに役立つツールとベストプラクティスがあります。 

Prometheus、Grafana、Evidently AIなどのツールは、モデルのパフォーマンスを継続的にtrack するように設計されています。リアルタイムの洞察を提供し、異常をdetect し、潜在的な問題を警告することができます。これらのツールは、本番環境におけるAIモデルの動的な性質に適応する自動化されたスケーラブルなソリューションを提供することで、従来のモニタリングを超越します。

デプロイ後のAIモデルの成功を測定するために、従うべきベストプラクティスを以下に示します。

  • 明確なパフォーマンス指標を設定する:モデルのパフォーマンスを定期的にチェックするために、精度、適合率、応答時間などの主要な指標を決定します。
  • 定期的にデータドリフトをチェックする:モデルが処理しているデータの変化に注意してください。適切に管理しないと、予測に影響を与える可能性があります。
  • A/Bテストを実施する:A/Bテストを使用して、現在のモデルのパフォーマンスを新しいバージョンまたは調整と比較します。これにより、モデルの動作の改善または後退を定量的に評価できます。
  • パフォーマンスを文書化および監査する:パフォーマンス指標とAIシステムに加えられた変更の詳細なログを保持します。これは、監査、コンプライアンス、および時間の経過に伴うモデルアーキテクチャの改善に不可欠です。

最適なAI KPIの選択は、ほんの始まりにすぎません

AIソリューションのデプロイと管理を成功させるには、適切なKPIを選択し、常に最新の状態に保つことが重要です。全体として、AIソリューションが技術的に、そしてビジネスインパクトの面でどれだけ優れているかを明確に示す指標を選択することが不可欠です。技術の進歩やビジネス戦略の変化など、状況が変化するにつれて、これらのKPIを見直し、調整することが重要です。 

パフォーマンスレビューを常に最新の状態に保つことで、AIシステムを適切かつ効果的に維持できます。これらの指標を常に把握することで、業務改善に役立つ貴重な洞察が得られます。積極的なアプローチは、AIの取り組みが真に価値のあるものであり、ビジネスの推進に役立つことを保証します。

コミュニティに参加して、私たちと一緒に革新を起こしましょう!GitHubリポジトリで、当社のAIの進歩をご覧ください。製造業ヘルスケアなどの業界を、最先端のAI技術でどのように変革しているかをご覧ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる