用語集

ラベルのスムージング

ラベルスムージングによりAIモデルの精度とロバスト性を向上-汎化を改善し、過信を減らす実証済みのテクニック。

ラベルスムージングは、機械学習モデル、特に分類タスクの学習中に使用される正則化テクニックである。モデルが正しいクラスに1.0の確率を割り当てないようにすることで、モデルの過信の問題に対処する。ラベル・スムージングは、「ハード」ラベル(正しいクラスが1で、それ以外はすべて0)を使用する代わりに、「ソフト」ラベルを作成し、確率の一部を他のクラスに分配する。これによって、モデルは予測についてあまり確信が持てなくなり、より良い汎化が可能になり、未知のデータでのパフォーマンスが向上する。このテクニックは高パフォーマンスのモデルで顕著に使用されており、When Does Label Smoothing Help?

レーベル・スムージングの仕組み

典型的な教師あり学習の分類問題では、学習データは入力とそれに対応する正しいラベルから構成される。例えば、画像分類タスクでは、猫の画像は、クラス[cat, dog, bird]のように、ラベル "cat "が1ホットの符号化ベクトルとして表現される。損失関数を計算するとき、モデルはその予測がこのハードターゲットからどれだけ離れているかに基づいてペナルティを受けます。

ラベル・スムージングはこの目標を修正する。これは正しいクラスのターゲット確率をわずかに減らし(例えば0.9に)、残りの小さな確率(この場合は0.1)を正しくないクラスに均等に分配します。したがって、新しい「ソフト」ターゲットは[0.9, 0.05, 0.05]のようになるかもしれません。この小さな変更は、ニューラルネットワークの最終ロジット層が1つのクラスに対して極端に大きな値を生成することを抑制し、オーバーフィッティングを防ぐのに役立ちます。このプロセスは、Ultralytics HUBのようなプラットフォームを使用して、モデルのトレーニング中に管理することができます。

レーベル・スムージングの利点

ラベル・スムージングの主な利点は、モデルの較正を改善することである。うまくキャリブレーションされたモデルの予測信頼度スコアは、より正確に正しい真の確率を反映します。これは、医用画像解析など、モデルの確からしさを理解することが重要なアプリケーションにとって極めて重要です。過信を防ぐことで、機械学習プロジェクトの重要な目標である、新しいデータに対するモデルの汎化能力も向上します。その結果、精度が若干向上することが多い。より良い汎化は、リアルタイムの推論や最終的なモデルの展開において、よりロバストなモデルにつながります。

実世界での応用

ラベルスムージングは、様々な最先端のモデルに適用されている、シンプルで効果的なテクニックである。

  1. 大規模画像分類: UltralyticsのYOLOのようなモデルは、ImageNetのような巨大なデータセット上の画像分類タスクのために訓練され、多くの場合、ラベルスムージングを使用します。このようなデータセットには、データのラベリングプロセスによるノイズや誤ったラベルが含まれることがあります。ラベル・スムージングは、このようなラベル・ノイズに対してモデルをよりロバストにし、潜在的に間違ったラベルを過度に確信して学習することを防ぎます。プロジェクトでは、さまざまな分類データセットを調べることができます。
  2. 自然言語処理(NLP): 機械翻訳のようなタスクでは、1つのフレーズに対して複数の有効な翻訳が存在する可能性がある。Transformerのようなモデルで使用されるラベルスムージングは、語彙の中の1つの正しい単語に1.0の確率を割り当てることを抑制し、他の単語も適切である可能性があることを認識します。この概念は現代のNLPの基礎となっており、スタンフォードNLPグループなどのリソースで議論されています。

ラベル・スムージングと関連概念

ラベル・スムージングを他の正則化技術と区別することは重要である。

  • ハード・ラベル:これは標準的なアプローチで、モデルは絶対的な確実性(正しいクラスに対して100%)で学習される。ラベルスムージングはこれに直接代わるものです。
  • データ増強これも正則化のテクニックのひとつで、既存のデータに変換を加えることで新しい学習例を作成する。ラベルスムージングがターゲット値そのものを変更するのに対して、データセットの多様性を高めます。UltralyticsのドキュメントにYOLOデータ増強のガイドがあります。
  • ドロップアウトこの方法は、複雑な共適応を防ぐために、各訓練ステップにおいてニューロンの一部をランダムに非活性化する。ラベルスムージングが損失計算を修正するのに対して、トレーニング中にモデルのアーキテクチャを修正します。ドロップアウトの詳細については、GeeksforGeeksの記事を参照してください。
  • 知識蒸留この手法では、事前に訓練されたより大きな「教師」モデルによって生成されたソフトラベルを使用して、より小さな「生徒」モデルが訓練される。これもソフトなラベルを使用しますが、これらのラベルのソースは別のモデルの予測であり、ラベルスムージングにおけるようにグランドトゥルースのラベルに適用される単純なヒューリスティックではありません。オリジナルの論文「Distilling the Knowledge in a Neural Network」は、この概念の基礎的な理解を提供しています。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク