Sözlük

Bilgi Distilasyonu

Knowledge Distillation'ın daha hızlı çıkarım, gelişmiş doğruluk ve uç cihaz dağıtım verimliliği için yapay zeka modellerini nasıl sıkıştırdığını keşfedin.

Bilgi Damıtma, makine öğreniminde (ML) daha büyük, daha karmaşık bir "öğretmen" modelinin performansını yeniden üretmek için kompakt bir "öğrenci" modelinin eğitildiği bir model optimizasyonu ve sıkıştırma tekniğidir. Temel fikir, "bilgiyi" güçlü ancak hantal öğretmen modelinden daha küçük, daha verimli öğrenci modeline aktarmaktır. Bu, uç cihazlar veya cep telefonları gibi kaynak kısıtlı ortamlarda performansta önemli bir düşüş olmadan son derece hassas modellerin kullanılmasına olanak tanır. Bu süreç, devasa, son teknoloji araştırma modelleri ile pratik, gerçek dünya model dağıtımı arasındaki boşluğu doldurmaktadır.

Bilgi Distilasyonu Nasıl Çalışır?

Tipik olarak büyük bir sinir ağı veya model topluluğu olan öğretmen modeli, ilk olarak yüksek doğruluk elde etmek için büyük bir veri kümesi üzerinde eğitilir. Damıtma işlemi sırasında, öğrenci modeli öğretmenin çıktılarını taklit etmeye çalışarak öğrenir. Öğrenci, yalnızca eğitim verilerindeki temel gerçek etiketlerden öğrenmek yerine, öğretmenin her tahmin için genellikle "yumuşak etiketler" olarak adlandırılan tam olasılık dağılımları üzerinde de eğitilir. Bu yumuşak etiketler, öğretmen modelinin nasıl "düşündüğünü" ve genelleme yaptığını ortaya koyduğu için "sert etiketlerden" (doğru cevaplar) daha zengin bilgiler sağlar. Örneğin, bir öğretmen modeli bir kedi görüntüsünün %90 güvenle "kedi" olduğunu tahmin edebilir, ancak aynı zamanda "köpek" (%5) ve "tilki" (%2) için küçük olasılıklar atayabilir. Bu incelikli bilgi, öğrenci modelinin daha etkili bir şekilde öğrenmesine yardımcı olur ve genellikle yalnızca sabit etiketler üzerinde eğitilmiş olmasına kıyasla daha iyi genelleme sağlar. Bu teknik, verimli modeller oluşturmak için derin öğrenme araç setinin önemli bir parçasıdır.

Gerçek Dünya Uygulamaları

Bilgi Damıtma, güçlü yapay zekayı erişilebilir kılmak için çeşitli alanlarda yaygın olarak kullanılmaktadır.

  1. Doğal Dil İşleme (NLP): BERT gibi büyük dil modelleri (LLM'ler) inanılmaz derecede güçlüdür ancak birçok uygulama için çok büyüktür. DistilBERT, BERT'in damıtılmış bir versiyonunun ünlü bir örneğidir. BERT'in performansının %97'sinden fazlasını korurken %40 daha küçük ve %60 daha hızlıdır, bu da onu tüketici cihazlarında duygu analizi ve soru yanıtlama gibi görevler için uygun hale getirir.
  2. Uç Cihazlarda Bilgisayarla Görme: Bilgisayarlı görüde, görüntü sınıflandırma veya nesne algılama için büyük, yüksek doğruluklu bir model daha küçük bir modele damıtılabilir. Bu, akıllı bir güvenlik kamerası için gerçek zamanlı kişi algılama gibi karmaşık görme görevlerinin, Raspberry Pi gibi sınırlı hesaplama gücüne sahip donanımlarda doğrudan çalışmasına olanak tanıyarak hızı ve veri gizliliğini artırır. YOLO11 gibi Ultralytics YOLO modelleri bu tür iş akışlarının bir parçası olabilir ve daha büyük modellerden elde edilen bilgiler daha küçük, dağıtılabilir versiyonların eğitimini bilgilendirebilir.

Bilgi Damıtma ve Diğer Optimizasyon Teknikleri

Bilgi Damıtma, diğer model optimizasyon teknikleriyle ilgilidir ancak bunlardan farklıdır. Farklılıkları anlamak, Ultralytics HUB gibi platformlar aracılığıyla yönetilebilen ve dağıtılabilen projeniz için doğru yaklaşımı seçmenin anahtarıdır.

  • Model Budama: Bu teknik, boyutunu küçültmek için halihazırda eğitilmiş bir ağdan gereksiz veya daha az önemli bağlantıların (ağırlıkların) çıkarılmasını içerir. Buna karşılık damıtma, öğretmeni taklit etmek için sıfırdan tamamen yeni, daha küçük bir ağ eğitir.
  • Model Niceleme: Niceleme, modelin ağırlıklarının sayısal hassasiyetini azaltır (örneğin, 32 bit kayan değerlerden 8 bit tam sayılara). Bu, modeli küçültür ve uyumlu donanım üzerinde hesaplamayı hızlandırabilir. Mevcut modelin temsilini değiştirir, oysa damıtma yeni bir model oluşturur. Niceleme genellikle damıtma veya budama ile birlikte kullanılır ve modeller ONNX gibi formatlara aktarılabilir veya TensorRT gibi motorlarla optimize edilebilir.
  • Transfer Öğrenimi: Bu, önceden eğitilmiş bir modelin parçalarının (genellikle özellik çıkarma omurgası) yeniden kullanılmasını ve ardından yeni, daha küçük bir veri kümesi üzerinde ince ayar yapılmasını içerir. Amaç, mevcut bir modeli yeni bir göreve uyarlamaktır. Öte yandan damıtma, bir öğretmenin tahmin davranışını tamamen farklı bir mimariye sahip olabilen bir öğrenci modeline aktarmayı amaçlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı