ラベルスムージングは、主に機械学習(ML)や深層学習(DL)の分類タスクで使用される正則化手法である。その主な目的は、学習データに基づく予測においてモデルが過信するのを防ぐことである。教師あり学習を用いた標準的な分類学習では、モデルは「ハード」ラベルを用いて学習されることが多く、通常、正しいクラスには確率1、それ以外のクラスには確率0が割り当てられるワンホットエンコード形式で表現される。ラベルスムージングは、これらのハードターゲットを「ソフト」ターゲットに変更し、正しいクラスに割り当てられる信頼度をわずかに下げ、誤ったクラスに少量の確率の塊を分散させる。これによってモデルの確信度が下がり、未知のデータに対してより良く一般化できる可能性がある。
レーベル・スムージングの仕組み
ラベル・スムージングは、正しいクラスには厳密に1を、それ以外には0を使う(ワンホット・エンコーディング)代わりに、これらのターゲット確率を調整する。例えば K
クラスと平滑化係数 alpha
正しいクラスの目標確率は次のようになる。 1 - alpha
となり、各誤りのクラスの確率は次のようになる。 alpha / (K-1)
.この小さな調整は、ターゲット・ラベル自体が絶対的な確実性を表現しないため、学習中に1つのクラスに極端に高い確率(1に近い)を割り当てた場合、モデルがペナルティを受けることを意味する。このテクニックは、高度な画像分類モデルの学習という文脈で、特に以下の論文で議論されている。 "コンピュータ・ビジョンのためのインセプション・アーキテクチャ再考" 論文
レーベル・スムージングの利点
ラベル・スムージングを導入すると、いくつかの利点がある:
- 汎化の向上:モデルが訓練データの正確なパターンに特化しすぎるのを防ぐ(オーバーフィットを減らす)ことで、新しい未知のデータに対してより良い性能を発揮することが多い。汎化はMLにおける重要な目標である。
- より良いモデル・キャリブレーション:ラベル・スムージングでトレーニングされたモデルは、予測が正しい真の可能性をよりよく反映する確率スコアを生成する傾向がある。つまり、予測された信頼度80%は、実際の精度80%に対応する可能性が高くなります。モデルのキャリブレーションを理解することは、信頼性の高いAIシステムにとって極めて重要です。
- 過信の低減:不確実性が存在する実世界のアプリケーションにおいて問題となりうる、予測に絶対的な確信に近いものを与えるモデルの問題に直接対処する。過信は誤った意思決定につながります。
- 正則化効果:ラベルにノイズを加えることで、学習したモデルの重みの複雑さを抑制する。
応用と実例
ラベルスムージングは、様々な領域の分類シナリオに広く適用されている:
- 画像分類: ImageNetデータセットでのトレーニングのような大規模な画像分類タスクでは、ラベルスムージングはモデルがより良く汎化し、検証セットでより高い精度を達成するのに役立ちます。Vision Transformers (ViT)のようなモデルは、トレーニング中にこのテクニックの恩恵を受けることがよくあります。Ultralytics HUBのようなツールを使用して分類モデルをトレーニングできます。
- 自然言語処理(NLP): 機械翻訳やテキスト分類のようなタスクで、Transformersのようなモデルが使用される場合、ラベルスムージングは、特に言語固有の曖昧さを考慮すると、モデルが特定の単語の予測や分類を過度に確信するのを防ぐことで、パフォーマンスを向上させることができます。
- 音声認識:NLPと同様に、音声認識モデルも、発音のばらつきや、学習データ内の書き起こしの不正確さを処理するために、ラベルスムージングの恩恵を受けることができる。
すべてのアーキテクチャについて常に明確に詳述されているわけではないが、ラベルスムージングのようなテクニックは、最先端のモデルの標準的な学習レシピの一部であることが多い。 Ultralytics YOLOのような物体検出モデルも含まれる可能性があります。
関連概念
- ワンホットエンコーディング:カテゴリカル・ラベルを表現する標準的な手法で、ラベルの平滑化により修正を加える。ワンホットエンコーディングは、真のクラスに1を、それ以外に0を割り当てる。
- 知識の蒸留:この手法もソフトターゲットを使用するが、目的は異なる。Knowledge Distillationは、事前に訓練された大きな「教師」モデルの確率出力をソフトラベルとして使用し、学習された知識を伝達しながら小さな「生徒」モデルを訓練する。ラベルスムージングは、標準的なトレーニング中に適用される自己完結型の正則化手法である。
- 損失関数:ラベルスムージングは通常、クロスエントロピーのような損失関数と組み合わせて使用され、損失が計算されるターゲット分布を修正する。
- 正則化:モデルの汎化を改善し、オーバーフィッティングを防止することを目的とした正則化技術で、より広いカテゴリーに分類される。他の例としては、ドロップアウトやL1/L2正則化があります。
考察
ラベルの平滑化は有益ではあるが、適用には注意が必要である。平滑化係数(アルファ)はチューニングが必要なハイパーパラメータであり、値が小さすぎるとほとんど効果がなく、逆に大きすぎるとラベルの情報が少なすぎて学習の妨げになる可能性がある。モデル・キャリブレーションへの影響は、多くの場合プラスに働きますが、特定のアプリケーションに対して評価されるべきであり、場合によってはポストホック・キャリブレーション手法が必要になる可能性があります。PyTorchのような最新のディープラーニングフレームワークでは、シンプルで効果的なツールです。 PyTorchや TensorFlow.