テストデータ
AIにおけるテストデータの重要性、モデルのパフォーマンスを評価し、オーバーフィッティングを検出し、実世界の信頼性を確保する上でのテストデータの役割をご覧ください。
機械学習において、テストデータとは、完全に学習されチューニングされたモデルの最終評価に使われる、データセットの独立した別個の部分である。このデータセットは、モデルの「最終試験」の役割を果たし、新しい未見のデータに対する性能の公平な評価を提供する。基本原則は、モデルの開発中にテストデータから学習したり、テストデータの影響を受けたりしてはならないということです。この厳密な分離により、精度や 平均平均精度(mAP)など、テストセットで計算される性能指標が、実世界のシナリオに汎化するモデルの能力を正しく反映することが保証されます。厳密なモデルテストは、モデル展開前の重要なステップです。
MLライフサイクルにおけるテストデータの役割
典型的な機械学習(ML)プロジェクトでは、データは異なる目的のために注意深く分割される。これらのパーティションの区別を理解することは基本である。
- トレーニングデータ:これはモデルの学習に使用される、データの最大のサブセットである。モデルは、トレーニングセットの例に基づいて内部の重みを調整することで、パターン、特徴、関係を繰り返し学習します。効果的なモデルの作成は、高品質のトレーニングデータと、このモデルトレーニングのヒントガイドにあるようなベストプラクティスに従うことに依存します。
- 検証データ:これは学習プロセスで使用される別のデータセットである。その目的は、未知のデータに対するモデルのパフォーマンスに関するフィードバックを提供することであり、ハイパーパラメータのチューニング(学習率の調整など)やオーバーフィッティングの防止に役立ちます。学習戦略の指針となる練習テストのようなものだ。評価は、専用の検証モードを使って行われることが多い。
- テストデータ:このデータセットは、すべてのトレーニングと検証が終了するまで、完全に隔離された状態で保管される。このデータセットは、モデルのパフォーマンスに関する最終的で公平なレポートを提供するために一度だけ使用される。テストデータを使ってモデルをさらに調整することは、結果を無効にしてしまう。この間違いは、"データリーク "または "ティーチング・トゥ・ザ・テスト "と呼ばれることもある。この最終評価は、Ultralytics YOLOモデルのようなモデルが、展開後にどのように機能するかを理解するために不可欠である。Ultralytics HUBのようなツールは、プロジェクトのライフサイクルを通じて、これらのデータセットを管理するのに役立ちます。
ベンチマーク・データセットはテストセットとしても機能しますが、その主な役割は、異なるモデルを比較するための公的な基準として機能することであり、ImageNet Large Scale Visual Recognition Challenge (ILSVRC)のような学術的なチャレンジでよく使用されます。モデル比較のページでその例を見ることができます。
実世界での応用
- 自動車におけるAI:ある開発者は、何千時間もの走行映像を使って自律走行車の 物体検出モデルを作成し、トレーニングと検証を行う。このモデルを車両に配備する前に、テストデータセットに対して評価する。このテストセットには、大雨の中の夜間走行、吹雪の中のナビゲート、他の物体に隠れて部分的に見えない歩行者の検出など、これまで見たことのない困難なシナリオが含まれる。このテストセットに対するモデルの性能は、多くの場合、nuScenesのようなベンチマークのデータを使用して、自動車アプリケーションのAIに要求される厳しい安全性と信頼性の基準を満たしているかどうかを決定します。
- 医療画像解析:ある病院の胸部X線画像から肺炎の兆候を検出するために、コンピュータビジョン(CV)モデルを学習する。このモデルが臨床的に有用であることを確認するためには、別の病院システムからの画像のデータセットでテストする必要がある。このテストデータには、異なる装置で撮影され、多様な患者集団から撮影され、異なる放射線科医によって解釈された画像が含まれる。この外部テストセットでモデルのパフォーマンスを評価することは、FDAなどの規制当局の承認を得たり、ヘルスケアにおけるAIの有用性を確認したりするために極めて重要である。このプロセスは、モデルがデータセットのバイアスを回避し、新しい臨床環境で確実に機能することを保証するのに役立ちます。