ヨロビジョン深圳
深セン
今すぐ参加

イノベーションの影響を評価するためのAIパフォーマンス測定

Abirami Vina

5分で読めます

2024年8月22日

適切なKPIとパフォーマンス指標を用いることで、AIイノベーションの成功をモニタリングできます。AIアプリケーションの影響を追跡し、最適化する方法について学びましょう。

これまで、ヘルスケア製造業観光業など、さまざまな業界でのAIの活用方法について見てきました。また、AIが日々の業務をどのように改善できるか主要なAIビジネスのアイデアについても議論してきました。これらの議論はすべて、必然的に同じ重要な疑問につながります。それは、AIの実装の成功をどのように測定できるかということです。AIソリューションを導入するだけでは十分ではありません。これらのソリューションが実際に成果を上げていることを確認することが、状況を大きく変えるのです。 

AIモデルがプロセスをより効率的にし、イノベーションを促進し、問題を解決する上で本当に効果的かどうかを判断するために、AIパフォーマンス指標を測定できます。適切な重要業績評価指標(KPI)に焦点を当てることで、AIソリューションがどれだけうまく機能しているか、どこを改善する必要があるかを理解できます。

この記事では、最も関連性の高いKPIを使用してAI実装の成功を測定する方法を見ていきます。ビジネスKPIとAIパフォーマンスKPIの違いを取り上げ、適合率や再現率などの主要な指標について説明し、特定のAIソリューションに最適なKPIを選択するのに役立ちます。

AIビジネスKPIとAIパフォーマンスKPIの違い

__wf_reserved_inherit
図1. AIビジネスKPIとAIパフォーマンスKPIの比較。

KPIについて考えるとき、特にエンタープライズAIについて話す場合、投資収益率(ROI)、コスト削減、または収益の創出など、すべてがビジネス指標に関するものだと考えるのは自然です。これらのAIビジネスKPIは、AIが企業の全体的な成功にどのように影響するかを測定し、より広範なビジネス目標と一致します。 

ただし、AIパフォーマンスKPIは、精度、適合率、再現率などの指標を使用して、AIシステム自体の機能状況に焦点を当てています。これらの指標の詳細については以下で説明しますが、本質的に、ビジネスKPIがAIの財務的および戦略的利点を示す一方で、パフォーマンスKPIはAIモデルが効果的に機能していることを確認します。

特定の指標は、実際には両方の目的に役立ちます。たとえば、タスクの完了に必要な時間やリソースの削減など、効率の向上は、パフォーマンスKPI(AIソリューションがどれだけうまく機能しているかを示す)とビジネスKPI(コスト削減と生産性の向上を測定する)の両方になります。顧客満足度は、もう1つのクロスオーバー指標です。これは、技術的なパフォーマンスと全体的なビジネス目標への影響の両方の観点から、AIを活用したカスタマーサービスツールの成功を反映できます。

主要なAIパフォーマンス指標の理解

AIモデルのパフォーマンスを測定するために使用される一般的な指標がいくつかあります。まず、それらの定義と計算方法を見ていきます。次に、これらの指標をどのように監視できるかを見ていきます。

適合率

適合率は、AIモデルが真陽性(モデルがオブジェクトまたは条件を正しく識別した場合)をどれだけ正確に識別するかを測定する指標です。たとえば、顔認識システムでは、システムが検出するようにトレーニングされた人の顔を正しく認識して識別した場合に、真陽性が発生します。 

適合率を計算するには、まず真陽性の数を数えます。次に、これをモデルが陽性とラベル付けしたアイテムの総数で割ります。この合計には、正しい識別と間違い(偽陽性と呼ばれます)の両方が含まれます。基本的に、適合率は、モデルが何かを認識したと主張するときに、どれくらいの頻度で正しいかを示します。

__wf_reserved_inherit
図2. 適合率の理解。

これは、偽陽性の結果がコストがかかるか、破壊的である可能性があるシナリオで特に重要です。たとえば、自動製造では、高い適合率は、システムが不良品をより正確に識別し、良品の不必要な廃棄または再加工を防ぐことができることを示します。もう1つの良い例は、セキュリティ監視です。高い適合率は、誤警報を最小限に抑え、セキュリティ対応が必要な真の脅威のみに焦点を当てるのに役立ちます。

再現率

再現率は、データセット内のすべての関連インスタンス、つまり真陽性を識別するAIモデルの能力を測定するのに役立ちます。簡単に言うと、検出するように設計された条件またはオブジェクトのすべての実際のケースをAIシステムがどれだけうまくキャプチャできるかを表します。再現率は、正しい検出数を、検出されるべきだった陽性ケースの総数で割ることによって計算できます(モデルが正しく識別したケースと見逃したケースの両方が含まれます)。

がん検出に使用されるAI対応の医療画像システムを考えてみましょう。このコンテキストでの再現率は、システムが正しく識別する実際の症例の割合を反映しています。がんの診断を見逃すと患者のケアに深刻な結果をもたらす可能性があるため、このようなシナリオでは高い再現率が不可欠です。

適合率と再現率

適合率と再現率は、AIモデルの性能を評価する上で、表裏一体の関係にあり、しばしばバランスが求められます。一方の指標を改善すると、他方の指標が犠牲になることが多いという課題があります。 

適合率を高くすることを優先するとしましょう。モデルはより選択的になり、確信度の高い陽性のみを識別できるようになるかもしれません。一方、再現率の向上を目指すと、モデルはより多くの陽性を識別するかもしれませんが、偽陽性も増え、結果的に適合率が低下する可能性があります。 

重要なのは、アプリケーションの具体的なニーズに基づいて、適合率と再現率の適切なバランスを見つけることです。このための有用なツールが、異なる閾値における2つの指標の関係を示す適合率-再現率曲線です。この曲線を分析することで、特定のユースケースにおいてモデルが最適な性能を発揮するポイントを特定できます。このトレードオフを理解することは、意図されたユースケースに対して最適な性能を発揮するようにAIモデルを微調整する際に役立ちます。

__wf_reserved_inherit
図3. 適合率-再現率曲線の例。

平均適合率 (mAP)

平均適合率(mAP)は、物体検出のようなタスクにおいて、AIモデルの性能を評価するために使用される指標です。このタスクでは、モデルは画像内の複数の物体を識別し、分類する必要があります。mAPは、モデルが認識するように学習されたすべての異なるカテゴリにおいて、モデルがどの程度うまく機能するかを示す単一のスコアを提供します。その計算方法を見てみましょう。

適合率-再現率曲線の下の領域は、そのクラスの平均適合率(AP)を示します。APは、モデルが特定のクラスに対してどの程度正確に予測を行うかを、さまざまな信頼度レベル(信頼度レベルとは、モデルがその予測をどの程度確信しているかを指します)における適合率と再現率の両方を考慮して測定します。各クラスのAPが計算されると、mAPは、これらのAP値をすべてのクラスで平均することによって決定されます。

__wf_reserved_inherit
図4. さまざまなクラスの平均適合率。

mAPは、歩行者、車両、交通標識など、複数の物体を同時に検出する必要がある自動運転などのアプリケーションで役立ちます。高いmAPスコアは、モデルがすべてのカテゴリにわたって一貫して良好な性能を発揮し、幅広いシナリオで信頼性と精度が高いことを意味します。

パフォーマンス指標を簡単に計算

主要なAIパフォーマンス指標を計算するための数式や方法は、難解に思えるかもしれません。しかし、Ultralyticsパッケージのようなツールを使えば、簡単かつ迅速に行うことができます。物体検出セグメンテーション分類タスクのいずれに取り組んでいる場合でも、Ultralyticsは、適合率、再現率、平均適合率(mAP)などの重要な指標を迅速に計算するために必要なユーティリティを提供します。

Ultralyticsを使用してパフォーマンス指標の計算を開始するには、以下に示すようにUltralyticsパッケージをインストールします。

この例では、事前学習済みのYOLOv8モデルをロードし、それを使用してパフォーマンス指標を検証しますが、Ultralyticsが提供するサポートされているモデルのいずれかをロードすることもできます。その方法は次のとおりです。

モデルがロードされたら、データセットで検証を実行できます。次のコードスニペットは、適合率、再現率、mAPなどのさまざまなパフォーマンス指標を計算するのに役立ちます。

Ultralyticsのようなツールを使用すると、パフォーマンス指標の計算がはるかに簡単になるため、モデルの改善により多くの時間を費やし、評価プロセスの詳細について心配する時間を減らすことができます。

AIのパフォーマンスは、デプロイ後にどのように測定されますか?

AIモデルを開発する際、管理された環境でそのパフォーマンスをテストするのは簡単です。しかし、モデルがデプロイされると、事態はより複雑になる可能性があります。幸いなことに、デプロイ後のAIソリューションを監視するのに役立つツールとベストプラクティスがあります。 

Prometheus、Grafana、Evidently AIなどのツールは、モデルのパフォーマンスを継続的に追跡するように設計されています。これらは、リアルタイムの洞察を提供し、異常を検出し、潜在的な問題について警告することができます。これらのツールは、本番環境におけるAIモデルの動的な性質に適応する自動化されたスケーラブルなソリューションを提供することで、従来の監視を超えています。

デプロイ後のAIモデルの成功を測定するために、従うべきベストプラクティスを以下に示します。

  • 明確なパフォーマンス指標を設定する:モデルのパフォーマンスを定期的にチェックするために、精度、適合率、応答時間などの主要な指標を決定します。
  • 定期的にデータドリフトをチェックする:モデルが処理しているデータの変化に注意してください。適切に管理しないと、予測に影響を与える可能性があります。
  • A/Bテストを実施する:A/Bテストを使用して、現在のモデルのパフォーマンスを新しいバージョンまたは調整と比較します。これにより、モデルの動作の改善または後退を定量的に評価できます。
  • パフォーマンスを文書化および監査する:パフォーマンス指標とAIシステムに加えられた変更の詳細なログを保持します。これは、監査、コンプライアンス、および時間の経過に伴うモデルアーキテクチャの改善に不可欠です。

最適なAI KPIの選択は、ほんの始まりにすぎません

AIソリューションのデプロイと管理を成功させるには、適切なKPIを選択し、常に最新の状態に保つことが重要です。全体として、AIソリューションが技術的に、そしてビジネスインパクトの面でどれだけ優れているかを明確に示す指標を選択することが不可欠です。技術の進歩やビジネス戦略の変化など、状況が変化するにつれて、これらのKPIを見直し、調整することが重要です。 

パフォーマンスレビューを常に最新の状態に保つことで、AIシステムを適切かつ効果的に維持できます。これらの指標を常に把握することで、業務改善に役立つ貴重な洞察が得られます。積極的なアプローチは、AIの取り組みが真に価値のあるものであり、ビジネスの推進に役立つことを保証します。

コミュニティに参加して、私たちと一緒に革新を起こしましょう!GitHubリポジトリで、当社のAIの進歩をご覧ください。製造業ヘルスケアなどの業界を、最先端のAI技術でどのように変革しているかをご覧ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました