Sözlük

Bilgi Distilasyonu

Knowledge Distillation'ın daha hızlı çıkarım, gelişmiş doğruluk ve uç cihaz dağıtım verimliliği için yapay zeka modellerini nasıl sıkıştırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Bilgi Damıtma, makine öğreniminde (ML) daha küçük, kompakt bir modelin ("öğrenci") daha büyük, daha karmaşık bir modelin ("öğretmen") davranışını taklit etmek için eğitildiği bir tekniktir. Birincil amaç, öğretmen model tarafından öğrenilen "bilgiyi" öğrenci modeline aktararak öğrencinin karşılaştırılabilir performans elde etmesini, ancak daha küçük boyut ve daha hızlı çıkarım gecikmesi gibi önemli ölçüde daha düşük hesaplama gereksinimleri elde etmesini sağlamaktır. Bu, karmaşık derin öğrenme (DL) modellerini mobil cihazlar veya uç bilişim platformları gibi kaynak kısıtlı ortamlarda dağıtım için pratik hale getirir. Bu kavram Geoffrey Hinton ve meslektaşları tarafından"Distilling the Knowledge in a Neural Network" adlı makalelerinde popüler hale getirilmiştir.

Bilgi Distilasyonu Nasıl Çalışır?

Süreç tipik olarak önceden eğitilmiş bir öğretmen modelini içerir; bu model tek bir güçlü model veya yüksek doğrulukla bilinen bir model topluluğu olabilir. Genellikle daha az parametreye veya daha sığ bir mimariye (örneğin, daha küçük bir Evrişimsel Sinir Ağı (CNN)) sahip olan öğrenci modeli, daha sonra öğretmen modelinin çıktılarını rehber olarak kullanarak eğitilir. Eğitim verilerinden yalnızca sabit etiketleri (temel gerçek) kullanmak yerine, öğrenci genellikle öğretmenin "yumuşak hedeflerinden" - öğretmen tarafından tüm sınıflarda tahmin edilen tam olasılık dağılımlarından - öğrenir. Bu yumuşak hedefler, öğretmen modelinin sınıflar arasındaki benzerlikleri nasıl genelleştirdiği ve temsil ettiği hakkında daha zengin bilgiler içerir. Genellikle damıtma kaybı olarak adlandırılan özel bir kayıp fonksiyonu, öğrencinin tahminleri ile öğretmenin yumuşak hedefleri arasındaki farkı en aza indirmek için kullanılır ve bazen gerçek etiketler kullanılarak hesaplanan standart bir kayıpla birleştirilir.

Faydaları ve Önemi

Bilgi Distilasyonu birkaç önemli avantaj sunar:

  • Model Sıkıştırma: Daha az depolama alanı gerektiren daha küçük modeller oluşturur.
  • Daha Hızlı Çıkarım: Azaltılmış model karmaşıklığı, gerçek zamanlı çıkarım uygulamaları için çok önemli olan daha hızlı tahminlere yol açar.
  • Enerji Verimliliği: Daha küçük modeller daha az güç tüketir, bu da pille çalışan cihazlar ve sürdürülebilir AI uygulamaları için önemlidir. Ultralytics Çevre Sağlığı ve Güvenliği yönergelerine bakın.
  • Uç Cihazlarda Dağıtım: Raspberry Pi veya NVIDIA Jetson gibi sınırlı bellek ve işlem gücüne sahip donanımlarda güçlü yapay zeka özellikleri sağlar.
  • Potansiyel Performans İyileştirme: Bazen öğrenci modeli, öğretmen tarafından sağlanan daha zengin denetim sinyalinden öğrendiği için doğrudan sabit etiketler üzerinde eğitilen benzer büyüklükteki bir modelden daha iyi genelleme yapabilir.

Gerçek Dünya Uygulamaları

Bilgi Damıtma, çeşitli alanlarda yaygın olarak kullanılmaktadır:

  1. Bilgisayarla Görme: 'nin karmaşık versiyonları gibi büyük nesne algılama veya görüntü segmentasyon modelleri Ultralytics YOLO veya Vision Transformers (ViT), mobil uygulamalarUltralytics HUB Uygulaması) veya otonom araçlar veya robotikteki gömülü sistemler için uygun hafif versiyonlara damıtılabilir. Örneğin Intuitivo, bilgiyi büyük temel modellerden milyonlarca otonom satın alma noktasını ölçeklendirmek için daha küçük, uygun maliyetli modellere aktarmak için bilgi damıtmayı kullanır ve açıklamayı önemli ölçüde hızlandırır (Kaynak: YOLO Vision 2023 Talk).
  2. Doğal Dil İşleme (NLP): BERT veya GPT gibi devasa Büyük Dil Modelleri (LLM 'ler) genellikle daha küçük sürümlere damıtılır (örn. Hugging Face) sınırlı hesaplama bütçesine sahip cihazlarda duygu analizi veya soru yanıtlama gibi görevler için veya sohbet robotları gibi daha düşük gecikme süresi gerektiren uygulamalar için.

İlgili Kavramlar

Bilgi Damıtma, diğer model optimizasyon teknikleriyle ilişkili ancak onlardan farklıdır:

  • Model Budama: Boyutunu küçültmek için önceden eğitilmiş bir ağdan daha az önemli ağırlıkların veya bağlantıların kaldırılmasını içerir. Distilasyon yeni, daha küçük bir ağı eğitir.
  • Model Niceleme: Boyutu azaltmak ve hesaplamayı hızlandırmak için modelin ağırlıklarının sayısal hassasiyetini azaltır (örneğin, 32 bit kayan değerlerden 8 bit tamsayılara), genellikle damıtma ile birlikte veya damıtmadan sonra kullanılır. Aşağıdaki gibi entegrasyonlara bakın ONNX veya TensorRT.
  • Transfer Öğrenimi: Önceden eğitilmiş bir modelin parçalarını (genellikle omurga) yeniden kullanır ve yeni bir veri kümesi veya görev üzerinde ince ayar yapar. Damıtma, bir öğretmenin öngörücü davranışını potansiyel olarak farklı bir öğrenci mimarisine aktarmaya odaklanır.
  • Federe Öğrenme: Ham verileri paylaşmadan, gizliliğe odaklanarak merkezi olmayan cihazlar arasında modelleri eğitir. Distilasyon model sıkıştırmaya odaklanır.

Bilgi Damıtma, büyük ölçekli araştırma modelleri ile pratik, gerçek dünya model dağıtımı arasındaki boşluğu doldurarak, son teknoloji yapay zeka modellerini daha erişilebilir ve verimli hale getirmek için güçlü bir araçtır. Ultralytics HUB gibi platformlar, aşağıdaki gibi potansiyel olarak damıtılmış modellerin eğitimini ve dağıtımını kolaylaştırır YOLOv8 veya YOLO11.

Tümünü okuyun