GELU (Gaussian Error Linear Unit)
استكشف دالة التنشيط Gaussian Error Linear Unit (GELU). تعلم كيف تعمل لا خطيتها السلسة والاحتمالية على تشغيل محولات الـ Transformers، و BERT، والذكاء الاصطناعي الحديث.
تُعد وحدة الخطأ الخطي الغاوسية (GELU) دالة تنشيط متطورة تلعب دوراً محورياً في أداء أنظمة الذكاء الاصطناعي (AI) الحديثة، لا سيما تلك القائمة على بنية Transformer. على عكس الدوال التقليدية التي تطبق حداً فاصلاً صارماً ومحدداً على مدخلات العصبونات، تُدخل GELU جانباً احتماليًا مستوحى من خصائص التوزيع الغاوسي. من خلال موازنة المدخلات حسب حجمها بدلاً من مجرد تمريرها أو حجبها، توفر GELU لاخطية أكثر سلاسة تساعد في تحسين نماذج التعلم العميق (DL). تسمح هذه الخاصية الفريدة للشبكات بنمذجة أنماط البيانات المعقدة بشكل أكثر فعالية، مما يساهم بشكل كبير في نجاح النماذج التأسيسية الضخمة.
Link to this sectionكيف تعمل GELU#
في جوهر أي شبكة عصبية، تحدد دوال التنشيط ما إذا كان العصبون "سيعمل" بناءً على إشارة الإدخال الخاصة به. تعمل الدوال الأقدم مثل وحدة التصحيح الخطية (ReLU) كمفتاح، حيث تُخرج صفراً لأي إدخال سالب وتُخرج القيمة نفسها للقيم الموجبة. ورغم كفاءة ذلك، فإن هذا القطع الحاد قد يعيق ديناميكيات التدريب.
تعمل GELU على تحسين ذلك من خلال قياس الإدخال بواسطة دالة التوزيع التراكمي للتوزيع الغاوسي. بديهياً، هذا يعني أنه مع تناقص قيمة الإدخال، تزداد احتمالية خروج العصبون، ولكن هذا يحدث تدريجياً بدلاً من حدوثه بشكل مفاجئ. يخلق هذا الانحناء دالة سلسة وغير رتيبة قابلة للاشتقاق عند جميع النقاط. تسهل هذه السلاسة عملية الانتشار العكسي للتدرجات بشكل أفضل، مما يساعد في تخفيف مشكلات مثل مشكلة تلاشي التدرج التي يمكن أن تعطل تدريب الشبكات العميقة.
Link to this sectionتطبيقات العالم الحقيقي#
لقد جعل مشهد التحسين الأكثر سلاسة الذي توفره GELU منها الخيار الافتراضي لبعض أكثر التطبيقات تقدماً في تعلم الآلة (ML).
- نماذج اللغات الكبيرة (LLMs): صعدت GELU إلى الصدارة مع تقديم نموذج BERT (تمثيلات المشفر ثنائية الاتجاه من Transformer) من قبل باحثي Google. وهي الآن مكون قياسي في سلسلة GPT ونماذج النصوص التوليدية الأخرى. في مهام مثل تلخيص النصوص أو تحليل المشاعر، تساعد GELU النموذج على التقاط الفروق الدقيقة في تمثيلات اللغة التي قد تغفل عنها دوال التنشيط الصارمة.
- محولات الرؤية (ViT): في مجال الرؤية الحاسوبية، تعتمد النماذج التي تتكيف مع بنية Transformer لـ تصنيف الصور بشكل كبير على GELU. من خلال معالجة الصور كسلسلة من الأجزاء (patches)، تستخدم هذه النماذج GELU للحفاظ على معلومات الميزات الغنية عبر الطبقات العميقة، مما يتيح دقة عالية في معايير مثل ImageNet.
Link to this sectionمقارنة بمصطلحات ذات صلة#
غالباً ما يتطلب فهم GELU تمييزها عن دوال التنشيط الشائعة الأخرى الموجودة في قاموس مصطلحات Ultralytics.
- GELU مقابل ReLU: تُعد ReLU أبسط من الناحية الحسابية وتخلق ندرة (أصفاراً دقيقة)، وهو ما قد يكون فعالاً. ومع ذلك، فإن "الزاوية الحادة" عند الصفر يمكن أن تبطئ التقارب. توفر GELU تقريباً سلساً ينتج عادةً دقة أعلى في المهام المعقدة، وإن كان ذلك بتكلفة حسابية أعلى قليلاً.
- GELU مقابل SiLU (Swish): تُعد وحدة الخط السيني (SiLU) متشابهة هيكلياً جداً مع GELU وتشترك في خصائصها السلسة وغير الرتيبة. بينما تهيمن GELU في معالجة اللغات الطبيعية (NLP)، غالباً ما يُفضل استخدام SiLU في كاشفات الكائنات عالية التحسين مثل YOLO26 نظراً لكفاءتها على أجهزة الحافة وأدائها الممتاز في مهام الكشف.
- GELU مقابل ReLU المسربة (Leaky ReLU): تحاول Leaky ReLU إصلاح مشكلة "العصبون الميت" في ReLU القياسية من خلال السماح بميل خطي صغير وثابت للمدخلات السالبة. في المقابل، GELU غير خطية للقيم السالبة، مما يوفر استجابة أكثر تعقيداً وتكيفاً غالباً ما تؤدي إلى تعلم تمثيلات أفضل في الشبكات العميقة جداً.
Link to this sectionمثال على التنفيذ#
تنفيذ GELU أمر مباشر باستخدام مكتبات التعلم العميق الحديثة مثل PyTorch. يوضح المثال التالي كيفية تطبيق الدالة على موتر (tensor) من بيانات الإدخال.
import torch
import torch.nn as nn
# Initialize the GELU activation function
gelu_activation = nn.GELU()
# Create sample input data including negative and positive values
input_data = torch.tensor([-3.0, -1.0, 0.0, 1.0, 3.0])
# Apply GELU to the inputs
output = gelu_activation(input_data)
# Print results to see the smoothing effect on negative values
print(f"Input: {input_data}")
print(f"Output: {output}")للمطورين الذين يتطلعون إلى الاستفادة من دوال التنشيط المتقدمة هذه في مشاريع الرؤية الحاسوبية الخاصة بهم، تعمل منصة Ultralytics على تبسيط سير العمل بالكامل. فهي توفر واجهة موحدة لتعليق البيانات، وتدريب النماذج باستخدام بنى مثل YOLO26 (التي تستخدم دوال تنشيط محسنة مثل SiLU)، ونشرها بكفاءة على السحابة أو أجهزة الحافة.






