用語集

アンダーフィット

機械学習モデルにおけるアンダーフィッティングを特定、防止、対処する方法を、専門家のヒント、戦略、実例を用いて学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

機械学習(ML)の領域では、最適なモデル性能を達成するには、単純さと複雑さのバランスを見つける必要がある。アンダーフィッティングは一般的な問題で、モデルが単純すぎて学習データに存在する基本的なパターンを捉えることができない。これは、モデルが効果的に学習できないことを意味し、学習したデータだけでなく、新しい未知のデータ(テストデータまたは実世界の入力)でもパフォーマンスが低下します。アンダーフィットモデルは、データ内の関係を正確に表現するのに必要な容量や学習時間が不足しているため、バイアスが高くなり、うまく汎化できない。

アンダーフィットの原因は?

過小適合モデルにはいくつかの要因がある:

  • モデルの複雑さが不十分:選択したモデルがデータの複雑さに対して単純すぎる可能性がある。例えば、非線形のパターンを持つデータに対して基本的な線形回帰モデルを使用したり、層やニューロンの数が少なすぎるニューラルネットワーク(NN)を使用したりする。
  • 不十分な特徴エンジニアリングモデルに提供される入力特徴には十分な関連情報が含まれていなかったり、基本的なパターンを効果的に表現できていなかったりする可能性がある。
  • 不十分なトレーニングデータ:モデルは、基礎となるパターンを学習するのに十分な例を見ていない可能性がある。これは特に複雑な深層学習モデルに当てはまる。多様で代表的なデータを持つことは非常に重要であり、Ultralytics データセットのようなプラットフォームを通じて調べることができる。
  • トレーニングが短すぎる:モデルのトレーニングプロセスが、データ内のパターンを学習するのに十分なエポック数を得る前に、早期に停止してしまう可能性がある。
  • 過度の正則化L1正則化、L2正則化、高ドロップアウト率などオーバーフィッティングを防ぐために使われるテクニックは、強く適用しすぎるとモデルを過度に制約し、必要なパターンの学習を妨げることがある。

アンダーフィットの特定

アンダーフィッティングは通常、トレーニング中とトレーニング後のモデルのパフォーマンスを評価することで診断される:

  • トレーニングエラーが高い:学習したデータでさえ、モデルの性能が低い。精度確度リコールF1スコアなどの主要な指標は低く、損失関数の値は高いままです。
  • 高い検証/テストエラー:そのモデルは、未知の検証データまたはテストデータでのパフォーマンスも低い。トレーニング誤差と検証誤差の性能差は通常小さいが、どちらの誤差も許容できないほど高い。
  • 学習曲線学習エポックに対する学習および検証の損失/測定値をプロットすることで、アンダーフィッティングを明らかにすることができる。両方の曲線が高いエラーレベルでプラトーになる場合、モデルはアンダーフィットしている可能性が高い。これらは、TensorBoardWeights & Biases.特定のYOLO パフォーマンス指標を理解することも重要です。

アンダーフィットへの対応

アンダーフィッティングを克服するには、いくつかの戦略がある:

  • モデルの複雑さを増すより多くのパラメータ、レイヤー、ニューロンを持つ、より強力なモデル・アーキテクチャを使用する。例えば、より単純なCNNから、次のようなより高度なアーキテクチャに切り替える。 Ultralytics YOLO11のような高度なアーキテクチャに切り替える。
  • フィーチャーエンジニアリングの改善:既存のデータからより有益なフィーチャーを作成したり、新しい関連データソースを組み込んだりします。
  • トレーニング時間を長くする:モデルをより多くのエポックでトレーニングし、データパターンを学習するのに十分な時間を与える。モデルトレーニングのヒントを参照してください。
  • 正則化を減らす正則化技術の強度を下げる(正則化パラメータλを下げる、脱落確率を下げるなど)。
  • 十分なデータを確保する:より多くのトレーニング例を収集する。より多くのデータを収集することが不可能な場合、データ増強のようなテクニックで、トレーニングデータの多様性を人工的に増やすことができる。データセットの管理は、Ultralytics HUBのようなプラットフォームを使って効率化できる。

アンダーフィットとオーバーフィットの比較

アンダーフィットとオーバーフィットは同じコインの裏表であり、モデルの汎化の失敗を表している。

  • アンダーフィット:モデルが単純すぎる(バイアスが大きい)。データの根本的な傾向を捉えることができず、結果としてトレーニングセットとテストセットの両方でパフォーマンスが低下する。
  • オーバーフィット:モデルが複雑すぎる(分散が大きい)。ノイズやランダムな揺らぎを含め、訓練データをうまく学習しすぎるため、訓練セットでは優れた性能を発揮するが、未経験のデータでは性能が低下する。

MLにおける目標は、アンダーフィットとオーバーフィットの間のスイートスポットを見つけることであり、しばしばバイアスと分散のトレードオフという文脈で議論される。

アンダーフィットの実例

  1. 単純な画像分類器:非常に基本的な畳み込みニューラルネットワーク(CNN)(例えば、1つか2つの畳み込み層のみ)を、ImageNetの何千ものオブジェクトカテゴリを分類するような複雑な画像分類タスクにトレーニングする。CNNの容量が限られているため、多くのクラスを効果的に区別するために必要な複雑な特徴を学習することができず、モデルが適合しない可能性が高い。トレーニング精度も検証精度も低いままです。
  2. 基本的な予知保全:単純な線形モデルを使って、運転温度のみに基づいて機械の故障を予測すること。故障が実際には振動、経年変化、圧力、温度の非線形性のような複雑な要因の相互作用の影響を受けている場合、線形モデルは適合を下回ることになります。真の複雑性をとらえることができず、予測モデリング性能が低下し、故障を正確に予測することができなくなります。より複雑なモデルや、より優れた機能を利用することが必要でしょう。次のようなフレームワーク PyTorchまたは TensorFlowのようなフレームワークは、より洗練されたモデルを構築するためのツールを提供している。
すべて読む