Knowledge Distillation'ın daha hızlı çıkarım, gelişmiş doğruluk ve uç cihaz dağıtım verimliliği için yapay zeka modellerini nasıl sıkıştırdığını keşfedin.
Bilgi Damıtma, makine öğreniminde (ML) daha küçük, kompakt bir modelin ("öğrenci") daha büyük, daha karmaşık bir modelin ("öğretmen") davranışını taklit etmek için eğitildiği bir tekniktir. Birincil amaç, öğretmen model tarafından öğrenilen "bilgiyi" öğrenci modeline aktararak öğrencinin karşılaştırılabilir performans elde etmesini, ancak daha küçük boyut ve daha hızlı çıkarım gecikmesi gibi önemli ölçüde daha düşük hesaplama gereksinimleri elde etmesini sağlamaktır. Bu, karmaşık derin öğrenme (DL) modellerini mobil cihazlar veya uç bilişim platformları gibi kaynak kısıtlı ortamlarda dağıtım için pratik hale getirir. Bu kavram Geoffrey Hinton ve meslektaşları tarafından"Distilling the Knowledge in a Neural Network" adlı makalelerinde popüler hale getirilmiştir.
Süreç tipik olarak önceden eğitilmiş bir öğretmen modelini içerir; bu model tek bir güçlü model veya yüksek doğrulukla bilinen bir model topluluğu olabilir. Genellikle daha az parametreye veya daha sığ bir mimariye (örneğin, daha küçük bir Evrişimsel Sinir Ağı (CNN)) sahip olan öğrenci modeli, daha sonra öğretmen modelinin çıktılarını rehber olarak kullanarak eğitilir. Eğitim verilerinden yalnızca sabit etiketleri (temel gerçek) kullanmak yerine, öğrenci genellikle öğretmenin "yumuşak hedeflerinden" - öğretmen tarafından tüm sınıflarda tahmin edilen tam olasılık dağılımlarından - öğrenir. Bu yumuşak hedefler, öğretmen modelinin sınıflar arasındaki benzerlikleri nasıl genelleştirdiği ve temsil ettiği hakkında daha zengin bilgiler içerir. Genellikle damıtma kaybı olarak adlandırılan özel bir kayıp fonksiyonu, öğrencinin tahminleri ile öğretmenin yumuşak hedefleri arasındaki farkı en aza indirmek için kullanılır ve bazen gerçek etiketler kullanılarak hesaplanan standart bir kayıpla birleştirilir.
Bilgi Distilasyonu birkaç önemli avantaj sunar:
Bilgi Damıtma, çeşitli alanlarda yaygın olarak kullanılmaktadır:
Bilgi Damıtma, diğer model optimizasyon teknikleriyle ilişkili ancak onlardan farklıdır:
Bilgi Damıtma, büyük ölçekli araştırma modelleri ile pratik, gerçek dünya model dağıtımı arasındaki boşluğu doldurarak, son teknoloji yapay zeka modellerini daha erişilebilir ve verimli hale getirmek için güçlü bir araçtır. Ultralytics HUB gibi platformlar, aşağıdaki gibi potansiyel olarak damıtılmış modellerin eğitimini ve dağıtımını kolaylaştırır YOLOv8 veya YOLO11.