اكتشف كيف تعمل دالة تنشيط GELU على تحسين نماذج المحولات مثل GPT-4، مما يعزز تدفق التدرج، والاستقرار، والكفاءة.
الوحدة الخطية للخطأ الغاوسي، أو GELU، هي دالة تنشيط عالية الأداء تُستخدم على نطاق واسع في الشبكات العصبية الحديثة (NN)، خاصة في نماذج المحولات. تم اقتراحها في ورقة بحثيةبعنوان "الوحدات الخطية للخطأ الغاوسي (GELUs)" من قبل دان هندريكس وكيفن غيمبل، تقدم GELU نهجًا احتماليًا لتفعيل الخلايا العصبية، مبتعدة عن الطبيعة الحتمية لدوال مثل ReLU. فهو يوازن المدخلات بناءً على حجمها بدلاً من مجرد تحديدها حسب الإشارة، ويجمع بشكل فعال بين خصائص من التسرب من الخدمة والمنطقة المنقطعة وReLU.
يحدد GELU مخرجات الخلية العصبية بضرب قيمة المدخلات بقيمة دالة التوزيع التراكمي الغاوسي القياسية (CDF) المطبقة على تلك المدخلات. وهذا يعني أن التنشيط عشوائي يعتمد على قيمة المدخلات نفسها. على عكس ReLU، التي تقطع القيم السالبة بشكل حاد، يوفر GELU منحنى أكثر سلاسة. من المرجح أن يتم الحفاظ على المدخلات ذات المقادير الأكبر، في حين أن المدخلات الأقرب إلى الصفر من المرجح أن يتم استبعادها. يسمح هذا الترجيح السلس والاحتمالي بتمثيلات أكثر ثراءً وربما تدفق أفضل للتدرج أثناء الترحيل العكسي، وهو أمر بالغ الأهمية لتدريب الشبكات العميقة.
تقدم GELU خصائص مميزة مقارنةً بدوال التنشيط الشائعة الأخرى:
أصبح GELU خيارًا شائعًا في العديد من نماذج التعلم العميق المتقدمة نظرًا لأدائه التجريبي القوي:
إن قدرة الدالة على توفير عدم خطية سلسة ودمج حجم المدخلات في قرارات التنشيط يجعلها فعالة في تدريب الشبكات العميقة. على الرغم من أنها أكثر كثافة حسابية بقليل من دالة ReLU، إلا أن فوائد أدائها غالبًا ما تبرر استخدامها في النماذج واسعة النطاق المتاحة من خلال أطر مثل PyTorch و TensorFlow. يمكنك استكشاف نماذج مختلفة وتدريبها باستخدام أدوات مثل Ultralytics HUB.