正則化
L1、L2正則化、ドロップアウト、早期打ち切りなどの正則化手法を使用して、過学習を防ぎ、モデルの汎化性能を向上させます。詳細はこちら!
正則化は、機械学習(ML)において、過学習と呼ばれる一般的な問題を回避するために用いられる一連のテクニックです。モデルが過学習を起こすと、トレーニングデータに含まれるノイズやランダムな変動まで学習してしまい、新しい未知のデータに対する汎化能力や正確な予測能力が低下します。正則化は、モデルの複雑さに対するペナルティを損失関数に加えることで機能し、モデルが過度に複雑なパターンを学習することを抑制します。これにより、トレーニングデータと検証データの両方でより優れた性能を発揮する、よりシンプルで汎化性の高いモデルを作成できます。
一般的な正則化手法
モデルのパフォーマンスとロバスト性を向上させるのに役立つ、広く使用されている正則化手法がいくつかあります。
- L1およびL2正則化: これらは、最も一般的な正則化の形式です。これらは、モデルの重みのサイズに基づいて損失関数にペナルティを追加します。L1正則化(Lasso)は、重要度の低い特徴の重みを正確にゼロに縮小する傾向があり、効果的に特徴選択を実行します。L2正則化(RidgeまたはWeight Decay)は、重みを小さくすることを強制しますが、ゼロになることはめったにありません。数学的な違いの詳細については、スタンフォードCS229コースノートなどのリソースを参照してください。
- ドロップアウト層: この手法は、ニューラルネットワークに特有のものです。トレーニング中に、各更新ステップでニューロンのアクティベーションの一部をランダムにゼロに設定します。これにより、ニューロンが過度に共適応するのを防ぎ、ネットワークがよりロバストな特徴を学習するように促します。この概念は、非常に影響力のある研究論文で紹介されました。
- データ拡張:トレーニングデータのサイズと多様性を人為的に拡大することにより、データ拡張はモデルがわずかな変化に対してより不変になるのを助けます。一般的な手法には、画像の回転、トリミング、スケーリング、色のシフトが含まれます。Ultralyticsは、モデルの堅牢性を向上させるための組み込みのYOLOデータ拡張メソッドを提供しています。
- Early Stopping(早期打ち切り): これは、トレーニング中に検証セットでのモデルのパフォーマンスを監視する実用的な方法です。検証のパフォーマンスが向上しなくなると、トレーニングプロセスが停止され、モデルが後のエポックで過学習を開始するのを防ぎます。Early Stoppingの実装に関する実用的なガイドは、PyTorchのドキュメントで入手できます。
実際のアプリケーション
正則化は、さまざまな分野で効果的な深層学習(DL)モデルを開発するために不可欠です。
- コンピュータビジョン: 物体検出モデル(Ultralytics YOLOなど)では、正則化はCOCOのようなデータセットから現実世界のアプリケーションに汎化するために重要です。例えば、自動車向けAIソリューションでは、L2正則化とドロップアウトは、交通標識検出器がさまざまな照明や気象条件下で確実に動作するようにし、トレーニング中に見られた特定の例を記憶しないようにするのに役立ちます。
- 自然言語処理(NLP): 大規模言語モデル(LLM)は、パラメータの数が膨大であるため、過学習を起こしやすい傾向があります。機械翻訳などのアプリケーションでは、Transformerアーキテクチャ内でドロップアウトを使用して、モデルが学習データから特定の文のペアを記憶するだけでなく、文法規則と意味関係を確実に学習するようにします。
正則化と他の概念との比較
正則化をMLにおける他の関連概念と区別することが重要です。
- 正則化 vs. 正規化: 正規化は、入力特徴量を標準的な範囲(例:0〜1)にスケーリングするデータ前処理手法です。これにより、スケールが原因で単一の特徴量が学習プロセスを支配することがなくなります。対照的に、正則化は、過学習を防ぐために、学習中にモデルの複雑さを制約する手法です。どちらもモデルのパフォーマンスを向上させますが、正規化はデータに焦点を当て、正則化はモデル自体に焦点を当てます。バッチ正規化は、レイヤーごとの正規化手法であり、わずかな正則化効果も提供します。
- 正則化 vs. ハイパーパラメータ調整: 正則化手法には、L1/L2における正則化の強度(ラムダ)やドロップアウト率など、独自のハイパーパラメータがあります。ハイパーパラメータ調整とは、これらの設定に最適な値を見つけるプロセスであり、Ultralytics Tunerクラスのようなツールで自動化されることがよくあります。つまり、ハイパーパラメータ調整を使用して、正則化を適用する最適な方法を見つけます。Ultralytics HUBのようなプラットフォームは、このプロセスに必要な実験の管理に役立ちます。