アンダーフィット
機械学習モデルにおけるアンダーフィッティングを特定、防止、対処する方法を、専門家のヒント、戦略、実例を用いて学びます。
アンダーフィッティングとは、機械学習(ML)においてよく見られる問題で、モデルが単純すぎるために学習データの根底にあるパターンを捉えられないというものである。この単純さが、入力特徴とターゲット変数の間の関係を学習することを妨げ、学習されたデータと新しい未知のデータの両方でパフォーマンスが低下する。アンダーフィットモデルはバイアスが高く、データに対して強い、しばしば正しくない仮定をする。その結果、モデルは高い精度を達成できず、うまく汎化できない。
アンダーフィッティング対オーバーフィッティングオーバーフィッティング
アンダーフィットとオーバーフィットは、MLにおける2つの重要な課題であり、学習データから新しいデータに汎化するモデルの能力に関係する。この2つはモデルの複雑さのスペクトラムの両極端を表しています。
- アンダーフィット:モデルが単純すぎてバイアスが大きい。その結果、損失関数の値が高くなり、訓練データセットと検証データセットの両方でパフォーマンスが低下する。
- オーバーフィット:モデルが複雑すぎて分散が大きい。ノイズやランダムな変動も含めて、トレーニングデータを学習しすぎる。その結果、訓練セットでは優れた性能を発揮するが、未経験のデータでは性能が低下する。これは、モデルが一般的なパターンを学習する代わりに、基本的に訓練例を記憶してしまったためである。
MLにおける最終的なゴールは、新しい実世界のシナリオに効果的に汎化するモデルを作成するために、この2つの間のバランスを取ることである。学習曲線の分析は、モデルがアンダーフィットか、オーバーフィットか、あるいはウェルフィットかを診断するための一般的な方法である。
アンダーフィットの原因と解決策
アンダーフィットを特定し対処することは、効果的なモデルを構築する上で極めて重要である。この問題は通常、いくつかの共通の原因から生じており、それぞれに対応する解決策がある。
- モデルが単純すぎる:複雑で非線形な問題に線形モデルを使うことは、アンダーフィットの典型的な原因である。
- 不十分または質の低い機能:モデルに提供された入力特徴量が正確な予測を行うのに十分な情報を含んでいない場合、モデルはアンダーフィットする。
- トレーニング不足:モデルが十分に訓練されていない可能性がある。 時代 データのパターンを学習する。
- 過剰な正則化:こんなテクニック L1正則化とL2正則化 または高い ドロップアウト レートはオーバーフィッティングを防ぐために使われるが、アグレッシブすぎるとモデルを拘束しすぎてアンダーフィッティングを引き起こす可能性がある。
- 解決策正則化の量を減らす。これは正則化関数のペナルティ項を小さくしたり、ドロップアウト率を下げることを意味する。モデルトレーニングのベストプラクティスに従うことで、適切なバランスを見つけることができる。
アンダーフィットの実例
- 単純な画像分類器:ImageNetデータセットの何千ものオブジェクトカテゴリを識別するような複雑な画像分類タスクに対して、1~2層しかない非常に基本的な畳み込みニューラルネットワーク(CNN)をトレーニングすることを想像してみてください。モデルの容量が限られているため、非常に多くのクラスを区別するために必要な複雑な特徴を学習することができず、結果として学習データとテストデータの両方で精度が低くなってしまいます。PyTorchや TensorFlowのようなフレームワークは、これを克服するために、より洗練されたアーキテクチャを構築するためのツールを提供する。
- 基本的な予知保全機械の運転温度のみから故障時期を推定する予測モデリングに、単純な線形回帰モデルを使用することを検討してください。機械の故障が、実際には振動、経年変化、圧力などの複雑で非線形な要因の相互作用に影響されている場合、単純な線形モデルは適合を下回ることになる。システムの真の複雑性を捉えることができず、予測性能が低下し、故障を正確に予測することができなくなる。勾配ブースティング・マシンやニューラルネットワークのような、より複雑なモデルがより適切であろう。