Knowledge Distillationが、より高速な推論、精度向上、エッジデバイス展開の効率化のために、AIモデルを圧縮する様子をご覧ください。
ナレッジ・ディスティレーションは モデル最適化戦略である。 機械学習における高度なモデル最適化戦略である。 生徒」モデルは、より大きく複雑な「教師」モデルの性能と動作を再現するように学習される。 「教師」モデルの性能と振る舞いを再現するように訓練される。主な目的は、汎化能力と「知識」を、重い教師ネットワークから軽い生徒ネットワークに移すことである。 を重い教師ネットワークから軽い生徒ネットワークに移すことである。このプロセスにより、リソースに制約のあるハードウェア上で エッジ・コンピューティング・デバイスのような、リソースに制約のあるハードウェア上に エッジコンピューティングデバイスのような 通常、アーキテクチャの小型化に伴う精度の大幅な低下を被ることなく。情報を圧縮することで より高速な推論レイテンシーと メモリ使用量の削減を達成することができます。
このプロセスは、"ソフトラベル "という概念に依存している。標準的な 標準的な教師あり学習では、モデルは モデルは学習データから"ハード・ラベル "を用いて学習される(例えば 例えば、ある画像は100%"猫 "で0%"犬 "である)。しかし、事前に訓練された教師モデルは、ソフト・ラベルと呼ばれる確率分布を生成する。 ソフト・ラベルとして知られる確率分布は、すべてのクラスにわたって生成されます。例えば、教師は画像を は90%が「猫」、9%が「犬」、1%が「車」であると予測する。これらのソフト・ラベルには、クラス間の関係に関する豊富な情報が含まれています。 このソフト・ラベルには、クラス間の関係に関する豊富な情報が含まれている。
蒸留の間,生徒モデルは,予測値と教師のソフトラベルの差を最小化するように学習される. を最小化するように学習される. カルバック・ライブラー発散のような特定の損失関数を使用します。これにより これにより生徒は、教師がすでに発見した「暗黙知」やデータの微妙な構造を学習することができます。 を学ぶことができる。基礎的な理解のために、研究者はしばしば以下を参照する。 ジェフリー・ヒントン(Geoffrey Hinton)の論文を参照することが多い。
通常、ライブラリは複雑な損失計算を内部で処理しますが、トレーニングのために生徒モデルを初期化すること
を初期化することが実用的な最初のステップです。以下は、以下のような軽量な学生モデルをロードする方法です。
YOLO11 を使用している。 ultralytics パッケージで提供される:
from ultralytics import YOLO
# Load a lightweight student model (YOLO11n)
# 'n' stands for nano, the smallest and fastest version
student_model = YOLO("yolo11n.pt")
# Train the student model on a dataset
# In a distillation workflow, this training would be guided by a teacher model's outputs
results = student_model.train(data="coco8.yaml", epochs=5, imgsz=640)
ナレッジ・ディスティレーションは、効率が正確さと同じくらい重要な産業において極めて重要である。
知識蒸留は、モデルの効率を向上させるために使用される他のテクニックと区別することが重要である。 これらは異なる原理で動作する。
これらのテクニックを組み合わせることで、例えば、教師から生徒へ、そして量子化を適用することで、開発者は組込みシステムのパフォーマンスを最大化することができる。 組込みシステムのパフォーマンスを最大化することができます。


