機械学習(ML)は人工知能(AI)の一分野であり、データから学習するシステムの作成に焦点を当てている。機械学習は、機械が画像を解釈するコンピュータ・ビジョンや、人間の言語を理解し生成する自然言語処理など、AIの他の多くの分野で中心的な役割を果たしている。
多くの場合、このようなAIモデルは、データから予測を行うためにディープラーニング技術を使用している。このようなシステムは非常に効果的ではあるが、常に正しい予測を行うとは限らない。正確な出力もあれば、的外れな出力もある。
これらのエラーがどのように発生するかを知ることは、モデルの性能を評価する上で重要な部分です。パフォーマンスを測定するには、モデル評価メトリクスを使用します。
一般的な評価指標には、精度(全体的な正しさ)、精度(ポジティブ予測の信頼性)、リコール(モデルが実際のポジティブをどれだけ識別できるか)があります。これらは一見似ているように見えますが、それぞれモデルの動作の異なる部分に焦点を当てています。
この記事では、それぞれのAIモデルのパフォーマンス指標を詳しく見ていきます。また、それらが互いにどのように関連し、どのようにあなたのユースケースに適したものを選択するかを探ります。始めよう!
機械学習モデルは、最初はうまくいっているように見えるかもしれない。しかし、適切な評価指標がなければ、その結果がどの程度正確なのかを理解することは困難です。これらのメトリクスは、モデルの評価に構造を与え、重要な質問に答えるのに役立ちます:モデルの予測は、与えられたタスクに対して有用で信頼できるのか?
accuracy、precision、recallといった指標は、AI開発者にモデルがどの程度機能しているかを測定する明確な方法を提供する。例えば、異なるモデルを比較する場合、これらのメトリクスを使用することで、特定のタスクに対してどのモデルが最も優れたパフォーマンスを発揮するかを確認することができます。これらの指標は、パフォーマンスを評価し、AIプロジェクトの目標に最も適したモデルを選択するための指針となります。
これらの測定基準は、性能比較をより客観的なものにします。推測や不完全な観察に頼るのではなく、モデルが様々な状況でどのように振る舞うかについて、測定可能な洞察を提供します。そうすることで、各コンテクストにおいてパフォーマンスのどの側面が最も重要であるかを浮き彫りにします。
例えば、指標の選択はしばしば用途に依存する。AIヘルスケア・アプリケーションでは、たとえ誤って否定的なフラグが立てられても、できるだけ多くの肯定的なケースを識別することが目標であるため、想起が重要である。対照的に、電子メールのスパムフィルターは、正当な電子メールを誤ってスパムとしてマークすることを避けるために、精度を優先するかもしれない。
混同行列は、AIモデルを評価するための基本的な2×2の表です。これは、実際の結果と予測された結果(モデルが与える答え)を比較することによって、予測を4つのカテゴリーに整理します。
この比較はモデルのパフォーマンスの詳細なビューを提供します。これは、マトリックス内の値から直接計算される精度や想起などの主要な評価指標の基礎を形成します。
表の行は実際のクラスを表し、列は予測されたクラスを表す。各セルは、そのカテゴリの結果のカウントを示します。簡単に言えば、いくつの予測が正しく、モデルがどのようなエラーを起こしたかを示しています。
混同行列は、データが不均衡であるとき、つまりあるカテゴリーが他のカテゴリーよりも多くの例を持っているときに、特に役に立ちます。また、異なるタイプのミスが異なるコストをもたらす場合にも役立ちます。
例えば、不正検知においては、不正行為を発見することが重要であるが、実際の取引に誤ってフラグを立てることも問題を引き起こす可能性がある。このマトリックスによって、それぞれのタイプのエラーがどれくらいの頻度で発生するかが明確になる。
ここでは、混同行列のさまざまな要素の概要を説明します:
混同行列はグリッド形式で表示されます。縦軸は実際のクラスを示し,横軸は予測されたクラスを示す.正しい予測は対角線に沿って表示され,真陽性と真陰性を表す.
誤りは対角線の外側に位置し、偽陽性と偽陰性をカバーする。この構造により、長所と短所を簡単に見つけることができる。
精度は、機械学習モデルの性能を評価するために最も広く使われている指標の1つである。これは、すべてのクラスにわたって予測が正しい頻度を測定します。言い換えれば、単純な質問に答えることになる:AIモデルが行ったすべての予測のうち、いくつが正しかったか?
精度の公式は、正しい予測数(真陽性と真陰性の両方を含む)を予測総数で割ったものである。精度は計算が簡単で理解しやすいため、モデル評価の一般的な出発点となる。
一般的に、精度はバランスのとれたデータセットを扱うときには信頼できる。しかし、1つのクラスが他を圧倒するような不均衡なデータセットでは、精度はしばしば誤解を招く可能性がある。常に多数クラスを予測するモデルは、他の少数クラスを検出できないまま、高い精度を達成することがあります。
例えば、歩行者を含む画像が数枚しかない画像データセットでは、すべての画像に対して「歩行者はいない」と予測するモデルでも、精度は高いが実際の歩行者を完全に検出できない可能性がある。
というのも、精度だけではモデルがどのようなミスを犯すのか、またそれがどれくらいの頻度で起こるのかを示すことができないからです。そのため、AIモデルがどの程度機能するかを完全に理解するためには、精度や想起などの指標も見ることが重要なのです。
精度は、モデルのポジティブ予測の精度を測定する重要な評価指標である。これは次の質問に答えます: 正と予測されたすべてのインスタンスのうち、いくつが正しかったか?
精度の式は、真陽性の数を真陽性と偽陽性の合計で割ったものである。これは、陽性の予測が間違いと判明した場合にコストがかかる場合に特に重要である。
例えば、不正検知の場合、精度の低いモデルでは、有効なトランザクションの多くに不正のフラグが立てられ、ユーザーとサポートチームの双方に不要な問題を引き起こす可能性がある。精度の高いモデルでは、フラグが立てられたトランザクションが実際の不正である可能性が高くなるため、このようなリスクが軽減されます。
精度が高いことは良いことですが、精度を重視しすぎるモデルは非常に選択的になり、実際にポジティブなケースを見逃してしまう可能性があります。そのため、性能のバランスを保つために、精度指標はしばしば想起とともにチェックされる。
Recallは、モデルが実際の陽性ケースをどれだけ識別できるかを測定するために使用される指標である。これは感度または真陽性率として知られ、質問に答えます:すべての実際の陽性の事例のうち、モデルはいくつを正しく検出したか?
リコールの公式は、真陽性の数を真陽性と偽陰性の合計で割ったものである。高い想起スコアは、モデルがデータ中のほとんどの真陽性ケースを捉えていることを示す。
リコールはヘルスケアのような業界では不可欠であり、病態を発見できなければ治療が遅れ、患者を危険にさらすことになる。たとえ一部の否定的な症例が誤ってフラグ付けされたとしても、すべての真の症例を特定することが最優先事項であることに変わりはない。
しかし、想起のみに焦点を当てたモデルでは、偽陽性のフラグが立ちすぎてしまい、精度が低下し、モデルの全体的な効率が損なわれてしまいます。リコールと精度のバランスをとることは、信頼できるAIモデルのパフォーマンスにとって非常に重要です。
精度とリコールはしばしば反対の方向に動く。一方が向上すると、もう一方は低下することがある。このトレードオフは、機械学習タスクにおける一般的な課題である。
高精度のモデルは、確信があるときだけ何かを陽性と予測する。これは誤報を減らしますが、本当の陽性を見逃す可能性があり、これはリコールを下げます。すべての陽性を捕まえようとするモデルは、リコールは上がるが、誤警報が増えるリスクがあり、これは精度を下げる。
このトレードオフは、モデルの判定しきい値を調整することで明確になる。しきい値は、システムがスコアや確率をアクションやラベルに変えるために使うカットオフです。しきい値を下げると、システムはより頻繁にポジティブな行動をとるようになり、これはリコールを増加させるが、精度を低下させるかもしれない。しきい値を上げると、逆効果になります:モデルはより少ない陽性を予測し、精度は向上しますが、リコールは通常低下します。
スパムの検知に取り組んでいるとしよう。このモデルは、スパムを受信トレイに入れるリスクと本物のメールをブロックするリスクのバランスをとらなければならない。厳密なフィルターではスパムを見逃す可能性があり、甘いフィルターでは正当なメールを誤ってブロックしてしまう可能性がある。適切なバランスはユースケースとそれぞれのエラーのコストに依存する。
精度-再現率曲線またはPR曲線は、モデルの決定しきい値が変化するにつれて、精度と再現率がどのように変化するかを示す。各ポイントは、2つの間の異なるトレードオフを表す。PR曲線は、不均衡なデータセット(1つのクラスの頻度が非常に低い場合)に特に有用である。
これはまた、ROC(Receiver Operating Characteristic)曲線よりも意味のある洞察を提供し、異なる決定しきい値において、モデルがどの程度陽性と陰性を分離するかを示す。高精度と高リコールの両方を持つモデルは、一般的に理想的な右上コーナーに近い精度とリコールの曲線を持つ。
F1スコアは、精度と想起のバランスをとらえる単一の値を提供する。F1スコアは、精度と想起の積の2倍を、精度と想起の和で割った値として計算される。F1スコアは、偽陽性と偽陰性の両方が重要な場合に有用で、不均衡なデータセットを扱うときや、モデルのパフォーマンスをバランスよく見る必要があるときに役立ちます。
精度、確度、想起は不可欠であるが、モデルの種類とデータセットの特徴に基づき、他のメトリクスがさらなる洞察を提供する。
ここでは、パフォーマンスのさまざまな側面を評価するのに役立つ、一般的に使用されているメトリクスをいくつか紹介します:
さて、accuracy、precision、recallをより明確に理解したところで、これらのメトリクスがコンピュータ・ビジョンにどのように適用されるかを見ていきましょう。
Ultralytics YOLO11のようなコンピュータビジョンモデルは、オブジェクト検出のようなタスクをサポートし、モデルが画像内にどのようなオブジェクトが存在するかを識別し、バウンディングボックスを使用してそれらの位置を特定します。各予測には、オブジェクトのラベルとその位置の両方が含まれるため、ラベルが正しいかどうかをチェックするだけよりも評価が複雑になります。
カメラを使って棚の商品を自動的に追跡する小売店のアプリケーションを考えてみよう。物体検出モデルは、シリアルの箱、ソーダの缶、水のボトルなどの商品を識別し、それらの位置をマークするかもしれない。
この場合、精度は検出されたアイテムのうち、いくつが実際に正しいかを示す。精度が高いということは、システムが影や背景の物体を商品とラベリングするような誤検出を避けることができることを意味する。リコールは、モデルが棚にある実際の商品のいくつを検出できたかを示す。リコールが高いということは、見逃される商品が少ないということであり、これは正確な在庫カウントにとって重要である。
精度はまだ一般的な正しさの尺度を提供することができますが、この種の設定では、数個の商品でも見逃したり、そこにない商品を検出したりすると、在庫管理に大きな影響を及ぼしかねません。そのため開発者は、システムの信頼性と実際の使用における実用性を確保するために、精度、再現性、正確性を一緒に見ているのです。
精度、確度、想起はそれぞれ、機械学習モデルのパフォーマンスの異なる側面を示している。一つの指標だけに頼ることは誤解を招く可能性がある。
混同行列、精度-再現曲線、F1スコアのようなツールやメトリクスは、トレードオフを明らかにし、MLモデルの改善に関する決定を導くのに役立ちます。特定のAIソリューションに適したメトリクスの組み合わせを選択することで、モデルが正確で信頼性が高く、実世界のアプリケーションで効果的であることを保証できます。
成長するコミュニティを探そう!GitHubリポジトリをチェックして、AIについてもっと学びましょう。コンピュータビジョンプロジェクトを始める準備はできていますか?ライセンスオプションをご覧ください。農業AIと ロボット工学におけるビジョンAIについては、ソリューションのページをご覧ください!