مسرد المصطلحات

GELU (الوحدة الخطية للخطأ الغاوسي)

اكتشف كيف تعمل دالة تنشيط GELU على تحسين نماذج المحولات مثل GPT-4، مما يعزز تدفق التدرج، والاستقرار، والكفاءة.

GELU (الوحدة الخطية للخطأ الغاوسي) هي دالة تنشيط عالية الأداء أصبحت معيارًا في أحدث بنيات الشبكات العصبية، وخاصة نماذج المحولات. وهي معروفة بمنحنى سلس وغير رتيب يساعد النماذج على تعلم الأنماط المعقدة بشكل أكثر فعالية من الدوال القديمة. تم تقديمها في ورقة"الوحدات الخطية للخطأ الغاوسي (GELUs)"، وهي تجمع بين خصائص من دوال أخرى مثل التسرب وReLU لتحسين استقرار التدريب وأداء النموذج.

كيف يعمل GELU

على عكس ReLU، التي تقطع جميع القيم السالبة بشكل حاد، فإن GELU ترجح مدخلاتها بناءً على حجمها. فهو يحدد احتماليًا ما إذا كان سيتم تنشيط خلية عصبية بضرب المدخلات في دالة التوزيع التراكمي (CDF) للتوزيع الغاوسي القياسي. وهذا يعني أنه من المرجح أن يتم "إسقاط" المدخلات (تعيينها إلى الصفر) كلما كانت أكثر سلبية، ولكن الانتقال يكون سلسًا وليس مفاجئًا. تساعد خاصية التنظيم العشوائي هذه على منع مشاكل مثل مشكلة تلاشي التدرج وتسمح بتمثيل أكثر ثراءً للبيانات، وهو أمر بالغ الأهمية لنماذج التعلم العميق الحديثة.

وحدة GELU مقابل وظائف التنشيط الأخرى

يوفر GELU العديد من المزايا مقارنةً بوظائف التنشيط الشائعة الأخرى، مما أدى إلى اعتماده على نطاق واسع.

  • GELU مقابل ReLU: الفرق الأساسي هو سلاسة GELU. فبينما يكون منحنى ReLU بسيطاً من الناحية الحسابية، إلا أن زاويته الحادة عند الصفر يمكن أن تؤدي أحياناً إلى مشكلة "موت ReLU"، حيث تصبح الخلايا العصبية غير نشطة بشكل دائم. يتفادى منحنى GELU الأملس هذه المشكلة، مما يسهل نزول التدرج بشكل أكثر استقرارًا ويؤدي غالبًا إلى دقة نهائية أفضل.
  • GELU مقابل ReLU المتسرب: تحاول وحدة Re LU المتسرّبة إصلاح مشكلة ReLU المحتضرة من خلال السماح بميل صغير وسالب للمدخلات السلبية. ومع ذلك، فإن طبيعة GELU غير الخطية والمنحنية توفر نطاق تنشيط أكثر ديناميكية ثبت أنه يتفوق على Leaky ReLU في العديد من مهام التعلم العميق.
  • GELU مقابل SiLU (Swish): الوحدة الخطية الجيبية (SiLU)، والمعروفة أيضًا باسم Swish، تشبه إلى حد كبير GELU. كلاهما دوال سلسة وغير رتيبة أظهرت أداءً ممتازًا. غالباً ما يعود الاختيار بينهما إلى الاختبار التجريبي لبنية ومجموعة بيانات محددة، على الرغم من أن بعض الأبحاث تشير إلى أن SiLU يمكن أن تكون أكثر كفاءة قليلاً في بعض نماذج الرؤية الحاسوبية. غالبًا ما تستخدم نماذج مثل Ultralytics YOLO دالة SiLU لتوازنها بين الأداء والكفاءة.

تطبيقات في الذكاء الاصطناعي والتعلم العميق

يُعد GELU مكوناً رئيسياً في العديد من أقوى نماذج الذكاء الاصطناعي التي تم تطويرها حتى الآن.

التنفيذ والاستخدام

يتوفر GELU بسهولة في جميع أطر التعلم العميق الرئيسية، مما يجعل من السهل دمجه في النماذج المخصصة.

يمكن للمطوّرين إنشاء النماذج وتدريبها ونشرها باستخدام GELU مع منصات مثل Ultralytics HUB، والتي تعمل على تبسيط دورة حياة عمليات التشغيل الآلي بالكامل بدءاً من زيادة البيانات وحتى النشر النهائي للنموذج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة