Sözlük

GELU (Gaussian Error Linear Unit)

Gauss Hata Doğrusal Birimi (GELU) aktivasyon fonksiyonunu keşfedin. Düzgün, olasılıksal doğrusal olmayan yapısının Transformers, BERT ve modern yapay zekayı nasıl güçlendirdiğini öğrenin.

Gauss Hata Doğrusal Birimi (GELU), modern yapay zeka (AI) sistemlerinin, özellikle Transformer mimarisine dayananların performansında önemli bir rol oynayan geliş miş bir aktivasyon fonksiyonudur. Nöron girdilerine katı, deterministik bir eşik uygulayan geleneksel fonksiyonların aksine, GELU, Gauss dağılımının özelliklerinden esinlenerek olasılıksal bir boyut getirir. Gauss dağılımının özelliklerinden esinlenerek olasılıksal bir boyut getirir. Girişleri basitçe geçmek yerine büyüklüklerine göre ağırlıklandırarak, GELU derin öğrenme (DL) modellerinin optimizasyonuna yardımcı olan daha yumuşak bir doğrusal olmayanlık sağlar. Bu benzersiz özellik, ağların karmaşık veri modellerini daha etkili bir şekilde modellemesine olanak tanır ve büyük temel modellerin başarısına önemli ölçüde katkıda bulunur.

GELU Nasıl Çalışır?

Herhangi bir sinir ağının merkezinde, aktivasyon fonksiyonları, bir nöronun giriş sinyaline göre "ateşlenip ateşlenmeyeceğini" belirler. Düzeltilmiş Doğrusal Birim (ReLU) gibi eski fonksiyonlar bir anahtar gibi çalışır ve negatif girişler için sıfır, pozitif değerler için ise girişin kendisini çıkarır. Verimli olmasına rağmen, bu keskin kesme, eğitim dinamiklerini engelleyebilir.

GELU, Gauss dağılımının kümülatif dağılım fonksiyonu ile girişi ölçeklendirerek bunu iyileştirir. Sezgisel olarak bu, girdi değeri azaldıkça nöronun düşme olasılığının arttığı, ancak bunun ani değil kademeli olarak gerçekleştiği anlamına gelir. Bu eğrilik, tüm noktalarda türevlenebilir, düzgün, monoton olmayan bir fonksiyon oluşturur. Bu düzgünlük, gradyanların daha iyi geri yayılımını kolaylaştırarak, derin ağların eğitimini durdurabilen kaybolan gradyan sorunu gibi sorunların azaltılmasına yardımcı olur.

Gerçek Dünya Uygulamaları

GELU'nun sağladığı daha sorunsuz optimizasyon ortamı, onu makine öğreniminde (ML) en gelişmiş uygulamaların bazıları için varsayılan seçim haline getirmiştir. .

Büyük Dil Modelleri (LLM'ler): GELU, Google tarafından BERT (Transformatörlerden İki Yönlü Kodlayıcı Temsilleri) sunulmasıyla öne çıktı. Artık GPT serisi ve diğer üretken metin modellerinde standart bir bileşendir. Metin özetleme veya duygu analizi gibi görevlerde GELU, modelinin, katı aktivasyonların gözden kaçırabileceği dil temsillerindeki ince nüansları yakalamasına yardımcı olur.
Vision Transformers (ViT): Bilgisayar görme alanında, görüntü sınıflandırması için Transformer mimarisini uyarlayan modeller büyük ölçüde GELU'ya dayanmaktadır. Görüntüleri yama dizileri olarak işleyen bu modeller, GELU'yu kullanarak derin katmanlar boyunca zengin özellik bilgilerini korur ve ImageNet gibi benchmarklarda yüksek doğruluk sağlar. ImageNetgibi benchmarklarda yüksek doğruluk elde edilmesini sağlar.

İlgili Terimlerle Karşılaştırma

GELU'yu anlamak için genellikle Ultralytics sözlüğünde bulunan diğer popüler aktivasyon fonksiyonlarından ayırt etmek gerekir. Ultralytics .

GELU ve ReLU: ReLU hesaplama açısından daha basittir ve verimlilik sağlayabilen seyreklik (tam sıfırlar) oluşturur. Ancak, sıfırdaki "keskin köşe" yakınsamayı yavaşlatabilir. GELU, hesaplama maliyeti biraz daha yüksek olsa da, karmaşık görevlerde genellikle daha yüksek doğruluk sağlayan yumuşak bir yaklaşım sunar.
GELU vs. SiLU (Swish): Sigmoid Linear Unit (SiLU), yapısal olarak GELU'ya çok benzer ve onun düzgün, monoton olmayan özelliklerini paylaşır. GELU, Doğal Dil İşleme (NLP) alanında baskınken, SiLU, kenar donanımındaki verimliliği ve algılama görevlerindeki mükemmel performansı nedeniyle YOLO26 gibi yüksek düzeyde optimize edilmiş nesne algılayıcılarda sıklıkla tercih edilmektedir.
GELU ve Leaky ReLU: Leaky ReLU, negatif girdiler için küçük, sabit bir doğrusal eğim sağlayarak standart ReLU'nun "ölmekte olan nöron" sorununu çözmeye çalışır. Buna karşılık, GELU negatif değerler için doğrusal değildir ve çok derin ağlarda genellikle daha iyi temsil öğrenimine yol açan daha karmaşık ve uyarlanabilir bir yanıt sunar. .

Uygulama Örneği

GELU'nun uygulanması, PyTorchkullanarak GELU'yu uygulamak oldukça basittir. Aşağıdaki örnek , fonksiyonun girdi tensor nasıl uygulanacağını göstermektedir.

import torch
import torch.nn as nn

# Initialize the GELU activation function
gelu_activation = nn.GELU()

# Create sample input data including negative and positive values
input_data = torch.tensor([-3.0, -1.0, 0.0, 1.0, 3.0])

# Apply GELU to the inputs
output = gelu_activation(input_data)

# Print results to see the smoothing effect on negative values
print(f"Input: {input_data}")
print(f"Output: {output}")

Kendi bilgisayar görme projelerinde bu gelişmiş aktivasyon işlevlerinden yararlanmak isteyen geliştiriciler için Ultralytics tüm iş akışını basitleştirir. Verileri açıklamak, YOLO26 (SiLU gibi optimize edilmiş aktivasyonları kullanan) gibi mimariler kullanarak modelleri eğitmek ve bunları bulut veya uç cihazlara verimli bir şekilde dağıtmak için birleşik bir arayüz sağlar.

GELU (Gaussian Error Linear Unit)

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

GELU Nasıl Çalışır?

Gerçek Dünya Uygulamaları

İlgili Terimlerle Karşılaştırma

Uygulama Örneği

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Monoküler derinlik tahmini nedir? Genel bakış

AI tehdit tespiti için Ultralytics YOLO kullanımına bir bakış

Ultralytics topluluğuna katılın