ラベルスムージングでAIモデルの精度とロバスト性を向上させましょう。これは、汎化性能を高め、過信を抑制するための実績あるテクニックです。
ラベルスムージングは、特に分類タスクにおいて、機械学習モデルのトレーニング中に使用される正則化手法です。モデルが正しいクラスに1.0の確率を完全に割り当てるのを防ぐことで、モデルの過信の問題に対処します。ラベルスムージングは、「ハード」ラベル(正しいクラスが1で、その他すべてが0の場合)を使用する代わりに、「ソフト」ラベルを作成し、確率質のごく一部を他のクラスに分散します。これにより、モデルは予測に対する確信度が低くなり、汎化が向上し、未知のデータに対するパフォーマンスが向上します。この手法は、高性能モデルで特に使用されており、When Does Label Smoothing Help?のような論文で詳しく説明されています。
一般的な教師あり学習の分類問題では、トレーニングデータは入力とそれに対応する正解ラベルで構成されます。例えば、画像分類タスクでは、猫の画像には、クラス[猫、犬、鳥]に対して、例えば、one-hotエンコードされたベクトルとして表現される「猫」というラベルが付けられます。損失関数を計算する際、モデルの予測がこのハードターゲットからどれだけ離れているかに基づいてペナルティが課されます。
ラベルスムージングは、このターゲットを変更します。正しいクラスのターゲット確率をわずかに減らし(たとえば、0.9に)、残りの小さな確率(この場合は0.1)を誤ったクラスに均等に分散します。したがって、新しい「ソフト」ターゲットは[0.9、0.05、0.05]のようになる可能性があります。この小さな変更により、ニューラルネットワークの最後のロジットレイヤーが1つのクラスに対して非常に大きな値を生成することを抑制し、過学習を防ぐのに役立ちます。このプロセスは、Ultralytics HUBのようなプラットフォームを使用してモデルのトレーニング中に管理できます。
ラベルスムージングの主な利点は、モデルのキャリブレーションが向上することです。適切にキャリブレーションされたモデルの予測信頼度スコアは、正しさの真の確率をより正確に反映します。これは、医用画像解析など、モデルの確実性を理解することが重要なアプリケーションにとって非常に重要です。過信を防ぐことで、新しいデータへのモデルの汎化能力も向上します。これは、すべての機械学習プロジェクトの重要な目標です。多くの場合、これにより精度がわずかに向上します。汎化能力が向上すると、リアルタイム推論と最終的なモデルのデプロイのための、より堅牢なモデルにつながります。
ラベルスムージングは、さまざまな最先端モデルに適用されるシンプルでありながら効果的な手法です。
ラベルスムージングを他の正則化手法と区別することが重要です。