اكتشف كيف تعزز دالة التنشيط GELU نماذج المحولات مثل GPT-4، مما يزيد من تدفق التدرج والاستقرار والكفاءة.
دالة التفعيل GELU (وحدة الخطأ الخطي الغاوسي) هي دالة تفعيل عالية الأداء أصبحت معيارًا في تصميمات الشبكات العصبية الحديثة، وخاصة نماذج Transformer. وهي معروفة بمنحناها الأملس وغير الرتيب، مما يساعد النماذج على تعلم الأنماط المعقدة بشكل أكثر فعالية من الدوال الأقدم. تم تقديمها في ورقة "وحدات الخطأ الخطي الغاوسي (GELUs)"، وهي تجمع بين خصائص من دوال أخرى مثل التسرب (dropout) و ReLU لتحسين استقرار التدريب وأداء النموذج.
على عكس ReLU، الذي يقطع بشكل حاد جميع القيم السالبة، فإن GELU يوازن مدخلاته بناءً على حجمها. يحدد احتماليًا ما إذا كان سيتم تنشيط عصبون بضرب الإدخال في دالة التوزيع التراكمي (CDF) للتوزيع الغاوسي القياسي. هذا يعني أن المدخلات من المرجح أن يتم "إسقاطها" (تعيينها على الصفر) كلما كانت أكثر سلبية، ولكن الانتقال سلس بدلاً من مفاجئ. تساعد خاصية التنظيم العشوائي هذه في منع مشكلات مثل مشكلة تلاشي التدرج وتسمح بتمثيل أكثر ثراءً للبيانات، وهو أمر بالغ الأهمية لنماذج التعلم العميق الحديثة.
تقدم GELU العديد من المزايا مقارنة بدوال التفعيل الشائعة الأخرى، مما يؤدي إلى اعتمادها على نطاق واسع.
تعد GELU مكونًا رئيسيًا في العديد من نماذج الذكاء الاصطناعي الأكثر قوة التي تم تطويرها حتى الآن.
تتوفر GELU بسهولة في جميع أطر عمل التعلم العميق الرئيسية، مما يجعل من السهل دمجها في النماذج المخصصة.
torch.nn.GELU
، مع معلومات مفصلة في وثائق PyTorch GELU الرسمية.tf.keras.activations.gelu
، وهو موثق في وثائق TensorFlow API.يمكن للمطورين بناء وتدريب ونشر النماذج باستخدام GELU مع منصات مثل Ultralytics HUB، مما يبسط دورة حياة MLOps بأكملها بدءًا من زيادة البيانات وحتى نشر النموذج النهائي.