اكتشف كيف تعمل دالة تنشيط GELU على تحسين نماذج المحولات مثل GPT-4، مما يعزز تدفق التدرج، والاستقرار، والكفاءة.
GELU (الوحدة الخطية للخطأ الغاوسي) هي دالة تنشيط عالية الأداء أصبحت معيارًا في أحدث بنيات الشبكات العصبية، وخاصة نماذج المحولات. وهي معروفة بمنحنى سلس وغير رتيب يساعد النماذج على تعلم الأنماط المعقدة بشكل أكثر فعالية من الدوال القديمة. تم تقديمها في ورقة"الوحدات الخطية للخطأ الغاوسي (GELUs)"، وهي تجمع بين خصائص من دوال أخرى مثل التسرب وReLU لتحسين استقرار التدريب وأداء النموذج.
على عكس ReLU، التي تقطع جميع القيم السالبة بشكل حاد، فإن GELU ترجح مدخلاتها بناءً على حجمها. فهو يحدد احتماليًا ما إذا كان سيتم تنشيط خلية عصبية بضرب المدخلات في دالة التوزيع التراكمي (CDF) للتوزيع الغاوسي القياسي. وهذا يعني أنه من المرجح أن يتم "إسقاط" المدخلات (تعيينها إلى الصفر) كلما كانت أكثر سلبية، ولكن الانتقال يكون سلسًا وليس مفاجئًا. تساعد خاصية التنظيم العشوائي هذه على منع مشاكل مثل مشكلة تلاشي التدرج وتسمح بتمثيل أكثر ثراءً للبيانات، وهو أمر بالغ الأهمية لنماذج التعلم العميق الحديثة.
يوفر GELU العديد من المزايا مقارنةً بوظائف التنشيط الشائعة الأخرى، مما أدى إلى اعتماده على نطاق واسع.
يُعد GELU مكوناً رئيسياً في العديد من أقوى نماذج الذكاء الاصطناعي التي تم تطويرها حتى الآن.
يتوفر GELU بسهولة في جميع أطر التعلم العميق الرئيسية، مما يجعل من السهل دمجه في النماذج المخصصة.
torch.nn.GELU
، مع معلومات مفصلة في وثائق PyTorch GELU الرسمية.tf.keras.activations.gelu
والذي تم توثيقه في وثائق TensorFlow API.يمكن للمطوّرين إنشاء النماذج وتدريبها ونشرها باستخدام GELU مع منصات مثل Ultralytics HUB، والتي تعمل على تبسيط دورة حياة عمليات التشغيل الآلي بالكامل بدءاً من زيادة البيانات وحتى النشر النهائي للنموذج.