Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

GELU (Gaussian Error Linear Unit)

GELU aktivasyon fonksiyonunun, GPT-4 gibi transformer modellerini nasıl geliştirdiğini, gradyan akışını, kararlılığı ve verimliliği nasıl artırdığını keşfedin.

GELU (Gaussian Error Linear Unit), özellikle Transformer modelleri olmak üzere, son teknoloji sinir ağı mimarilerinde standart hale gelmiş yüksek performanslı bir aktivasyon fonksiyonudur. Modellerin karmaşık desenleri eski fonksiyonlardan daha etkili bir şekilde öğrenmesine yardımcı olan pürüzsüz, monoton olmayan eğrisiyle bilinir. "Gaussian Error Linear Units (GELU'lar)" makalesinde tanıtılan bu fonksiyon, eğitim kararlılığını ve model performansını iyileştirmek için dropout ve ReLU gibi diğer fonksiyonların özelliklerini birleştirir.

GELU Nasıl Çalışır?

Tüm negatif değerleri keskin bir şekilde kesen ReLU'nun aksine, GELU girdilerini büyüklüklerine göre ağırlıklandırır. Girdiyi standart Gauss dağılımının kümülatif dağılım fonksiyonu (CDF) ile çarparak bir nöronu etkinleştirip etkinleştirmeyeceğini olasılıksal olarak belirler. Bu, girdilerin ne kadar negatifse "düşürülme" (sıfıra ayarlanma) olasılığının o kadar yüksek olduğu, ancak geçişin ani değil, yumuşak olduğu anlamına gelir. Bu stokastik düzenlileştirme özelliği, kaybolan gradyan sorunu gibi sorunları önlemeye yardımcı olur ve modern derin öğrenme modelleri için çok önemli olan daha zengin bir veri gösterimine olanak tanır.

GELU ve Diğer Aktivasyon Fonksiyonları

GELU, diğer popüler aktivasyon fonksiyonlarına göre çeşitli avantajlar sunar ve bu da yaygın olarak benimsenmesine yol açar.

  • GELU - ReLU Karşılaştırması: Temel fark, GELU'nun pürüzsüzlüğüdür. ReLU hesaplama açısından basit olsa da, sıfırdaki keskin köşesi bazen nöronların kalıcı olarak aktif olmadığı "ölen ReLU" sorununa yol açabilir. GELU'nun pürüzsüz eğrisi bu sorunu önler, daha kararlı bir gradyan inişi sağlar ve genellikle daha iyi nihai doğruluğa yol açar.
  • GELU - Leaky ReLU Karşılaştırması: Leaky ReLU, negatif girdiler için küçük, negatif bir eğime izin vererek ölen ReLU sorununu çözmeye çalışır. Bununla birlikte, GELU'nun doğrusal olmayan, eğimli yapısı, birçok derin öğrenme görevinde Leaky ReLU'dan daha iyi performans gösterdiği kanıtlanmış daha dinamik bir aktivasyon aralığı sağlar.
  • GELU - SiLU (Swish) Karşılaştırması: Swish olarak da bilinen Sigmoid Doğrusal Birim (SiLU), GELU'ya çok benzer. Her ikisi de mükemmel performans gösteren pürüzsüz, monoton olmayan fonksiyonlardır. Aralarındaki seçim genellikle belirli bir mimari ve veri kümesi için ampirik testlere bağlıdır, ancak bazı araştırmalar SiLU'nun belirli bilgisayarlı görü modellerinde biraz daha verimli olabileceğini göstermektedir. Ultralytics YOLO gibi modeller, performans ve verimlilik dengesi için genellikle SiLU'yu kullanır.

Yapay Zeka ve Derin Öğrenmede Uygulamalar

GELU, bugüne kadar geliştirilen en güçlü AI modellerinin çoğunda önemli bir bileşendir.

Uygulama ve Kullanım

GELU, tüm büyük derin öğrenme çerçevelerinde kolayca bulunur ve özel modellere dahil edilmesini kolaylaştırır.

Geliştiriciler, eğitim alabilir, model oluşturabilir ve Ultralytics HUB gibi platformlarla GELU'yu kullanarak modelleri dağıtabilir. Bu, MLOps yaşam döngüsünün tamamını veri artırmadan nihai model dağıtımına kadar kolaylaştırır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı