مسرد المصطلحات

GELU (الوحدة الخطية للخطأ الغاوسي)

اكتشف كيف تعمل دالة تنشيط GELU على تحسين نماذج المحولات مثل GPT-4، مما يعزز تدفق التدرج، والاستقرار، والكفاءة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

الوحدة الخطية للخطأ الغاوسي، أو GELU، هي دالة تنشيط عالية الأداء تُستخدم على نطاق واسع في الشبكات العصبية الحديثة (NN)، خاصة في نماذج المحولات. تم اقتراحها في ورقة بحثيةبعنوان "الوحدات الخطية للخطأ الغاوسي (GELUs)" من قبل دان هندريكس وكيفن غيمبل، تقدم GELU نهجًا احتماليًا لتفعيل الخلايا العصبية، مبتعدة عن الطبيعة الحتمية لدوال مثل ReLU. فهو يوازن المدخلات بناءً على حجمها بدلاً من مجرد تحديدها حسب الإشارة، ويجمع بشكل فعال بين خصائص من التسرب من الخدمة والمنطقة المنقطعة وReLU.

كيف يعمل GELU

يحدد GELU مخرجات الخلية العصبية بضرب قيمة المدخلات بقيمة دالة التوزيع التراكمي الغاوسي القياسية (CDF) المطبقة على تلك المدخلات. وهذا يعني أن التنشيط عشوائي يعتمد على قيمة المدخلات نفسها. على عكس ReLU، التي تقطع القيم السالبة بشكل حاد، يوفر GELU منحنى أكثر سلاسة. من المرجح أن يتم الحفاظ على المدخلات ذات المقادير الأكبر، في حين أن المدخلات الأقرب إلى الصفر من المرجح أن يتم استبعادها. يسمح هذا الترجيح السلس والاحتمالي بتمثيلات أكثر ثراءً وربما تدفق أفضل للتدرج أثناء الترحيل العكسي، وهو أمر بالغ الأهمية لتدريب الشبكات العميقة.

مقارنة مع وظائف التنشيط الأخرى

تقدم GELU خصائص مميزة مقارنةً بدوال التنشيط الشائعة الأخرى:

  • ReLU (الوحدة الخطية المعدلة): وحدة ريلو بسيطة من الناحية الحسابية (المخرجات هي المدخلات إذا كانت موجبة وإلا فهي صفر). وحدة GELU أكثر سلاسة وغير رتيبة (يمكن أن تنخفض مع زيادة المدخلات للقيم السالبة)، والتي يمكن أن تساعد أحيانًا في التقاط أنماط أكثر تعقيدًا. ومع ذلك، فإن GELU أكثر كثافة من الناحية الحسابية من ReLU.
  • سيغمويد وتانه: تعمل هذه الدوال على سحق المدخلات في نطاق ثابت (من 0 إلى 1 بالنسبة لسيغمويد، ومن -1 إلى 1 بالنسبة لتانه). على الرغم من أنها مفيدة في سياقات معينة (مثل طبقات الخرج للاحتمالات)، إلا أنها قد تعاني من مشكلة تلاشي التدرج في الشبكات العميقة. لا تمتلك GELU، مثل ReLU، حدًا أعلى، مما يخفف من هذه المشكلة بالنسبة للقيم الموجبة.
  • SiLU (الوحدة الخطية السيجيمية) / حفيف: SiLU هي دالة تنشيط أخرى سلسة وغير رتيبة تضرب المدخلات في الشكل السيني. تشترك مع GELU في أوجه التشابه مع GELU من حيث الشكل والأداء، وغالبًا ما تعتبر بديلاً قريبًا. وقد أظهر كلاهما نتائج تجريبية قوية.

مزايا GELU

  • النعومة: يسمح منحناها السلس بديناميكيات أفضل لنزول التدرج مقارنةً بالنقطة الحادة في ReLU.
  • عدم الاطراد: تسمح بتقريب الدالة الأكثر تعقيدًا.
  • التفسير الاحتمالي: يدمج حجم المدخلات في قرار التنشيط بطريقة عشوائية.
  • أحدث أداء: كثيراً ما تستخدم في الموديلات عالية الأداء، خاصةً المحولات.

العيوب والاعتبارات

  • التكلفة الحسابية: يعد حساب CDF الغاوسي أكثر تكلفة من العمليات البسيطة في ReLU. غالبًا ما تُستخدم عمليات التقريب الفعالة في الممارسة العملية.
  • التعقيد: أكثر تعقيداً قليلاً في الفهم والتنفيذ من البداية مقارنةً بالدوال الأبسط مثل ReLU.

التطبيقات والأهمية

أصبح GELU خيارًا شائعًا في العديد من نماذج التعلم العميق المتقدمة نظرًا لأدائه التجريبي القوي:

إن قدرة الدالة على توفير عدم خطية سلسة ودمج حجم المدخلات في قرارات التنشيط يجعلها فعالة في تدريب الشبكات العميقة. على الرغم من أنها أكثر كثافة حسابية بقليل من دالة ReLU، إلا أن فوائد أدائها غالبًا ما تبرر استخدامها في النماذج واسعة النطاق المتاحة من خلال أطر مثل PyTorch و TensorFlow. يمكنك استكشاف نماذج مختلفة وتدريبها باستخدام أدوات مثل Ultralytics HUB.

قراءة الكل