مسرد المصطلحات

GELU (الوحدة الخطية للخطأ الغاوسي)

اكتشف كيف تعمل دالة تنشيط GELU على تحسين نماذج المحولات مثل GPT-4، مما يعزز تدفق التدرج، والاستقرار، والكفاءة.

الوحدة الخطية للخطأ الغاوسي، أو GELU، هي دالة تنشيط عالية الأداء تُستخدم على نطاق واسع في الشبكات العصبية الحديثة (NN)، خاصة في نماذج المحولات. تم اقتراحها في ورقة بحثيةبعنوان "الوحدات الخطية للخطأ الغاوسي (GELUs)" من قبل دان هندريكس وكيفن غيمبل، تقدم GELU نهجًا احتماليًا لتفعيل الخلايا العصبية، مبتعدة عن الطبيعة الحتمية لدوال مثل ReLU. فهو يوازن المدخلات بناءً على حجمها بدلاً من مجرد تحديدها حسب الإشارة، ويجمع بشكل فعال بين خصائص من التسرب من الخدمة والمنطقة المنقطعة وReLU.

كيف يعمل GELU

يحدد GELU مخرجات الخلية العصبية بضرب قيمة المدخلات بقيمة دالة التوزيع التراكمي الغاوسي القياسية (CDF) المطبقة على تلك المدخلات. وهذا يعني أن التنشيط عشوائي يعتمد على قيمة المدخلات نفسها. على عكس ReLU، التي تقطع القيم السالبة بشكل حاد، يوفر GELU منحنى أكثر سلاسة. من المرجح أن يتم الحفاظ على المدخلات ذات المقادير الأكبر، في حين أن المدخلات الأقرب إلى الصفر من المرجح أن يتم استبعادها. يسمح هذا الترجيح السلس والاحتمالي بتمثيلات أكثر ثراءً وربما تدفق أفضل للتدرج أثناء الترحيل العكسي، وهو أمر بالغ الأهمية لتدريب الشبكات العميقة.

مقارنة مع وظائف التنشيط الأخرى

تقدم GELU خصائص مميزة مقارنةً بدوال التنشيط الشائعة الأخرى:

ReLU (الوحدة الخطية المعدلة): وحدة ريلو بسيطة من الناحية الحسابية (المخرجات هي المدخلات إذا كانت موجبة وإلا فهي صفر). وحدة GELU أكثر سلاسة وغير رتيبة (يمكن أن تنخفض مع زيادة المدخلات للقيم السالبة)، والتي يمكن أن تساعد أحيانًا في التقاط أنماط أكثر تعقيدًا. ومع ذلك، فإن GELU أكثر كثافة من الناحية الحسابية من ReLU.
سيغمويد وتانه: تعمل هذه الدوال على سحق المدخلات في نطاق ثابت (من 0 إلى 1 بالنسبة لسيغمويد، ومن -1 إلى 1 بالنسبة لتانه). على الرغم من أنها مفيدة في سياقات معينة (مثل طبقات الخرج للاحتمالات)، إلا أنها قد تعاني من مشكلة تلاشي التدرج في الشبكات العميقة. لا تمتلك GELU، مثل ReLU، حدًا أعلى، مما يخفف من هذه المشكلة بالنسبة للقيم الموجبة.
SiLU (الوحدة الخطية السيجيمية) / حفيف: SiLU هي دالة تنشيط أخرى سلسة وغير رتيبة تضرب المدخلات في الشكل السيني. تشترك مع GELU في أوجه التشابه مع GELU من حيث الشكل والأداء، وغالبًا ما تعتبر بديلاً قريبًا. وقد أظهر كلاهما نتائج تجريبية قوية.

مزايا GELU

النعومة: يسمح منحناها السلس بديناميكيات أفضل لنزول التدرج مقارنةً بالنقطة الحادة في ReLU.
عدم الاطراد: تسمح بتقريب الدالة الأكثر تعقيدًا.
التفسير الاحتمالي: يدمج حجم المدخلات في قرار التنشيط بطريقة عشوائية.
أحدث أداء: كثيراً ما تستخدم في الموديلات عالية الأداء، خاصةً المحولات.

العيوب والاعتبارات

التكلفة الحسابية: يعد حساب CDF الغاوسي أكثر تكلفة من العمليات البسيطة في ReLU. غالبًا ما تُستخدم عمليات التقريب الفعالة في الممارسة العملية.
التعقيد: أكثر تعقيداً قليلاً في الفهم والتنفيذ من البداية مقارنةً بالدوال الأبسط مثل ReLU.

التطبيقات والأهمية

أصبح GELU خيارًا شائعًا في العديد من نماذج التعلم العميق المتقدمة نظرًا لأدائه التجريبي القوي:

نماذج المحولات: إن GELU هي دالة تنشيط قياسية في طبقات التغذية الأمامية في بنيات المحولات، حيث تعمل على تشغيل نماذج مثل:
- BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات): تُستخدم لمهام مثل فهم اللغة الطبيعية (NLU ) والإجابة عن الأسئلة.
- نماذج GPT (المحول التوليدي المدرب مسبقاً): تُستخدم في النماذج اللغوية الكبيرة (LLMs) لتوليد النصوص وتلخيصها وغير ذلك.
محولات الرؤية (ViT): تُستخدم في محولات الرؤية البصرية والبنى ذات الصلة لمهام الرؤية الحاسوبية (CV) مثل تصنيف الصور واكتشاف الأجسام.
Ultralytics YOLOv9: تتضمن بنية شبكة تجميع الطبقات المعممة الفعالة المعممة (GELAN) المستخدمة في YOLOv9 وظائف تنشيط مثل GELU أو SiLU، مما يساهم في دقتها وكفاءتها العالية في مهام اكتشاف الأجسام، كما هو مفصل في ورقة YOLOv9. راجع مقارنة بين YOLOv9 و YOLOv8.

إن قدرة الدالة على توفير عدم خطية سلسة ودمج حجم المدخلات في قرارات التنشيط يجعلها فعالة في تدريب الشبكات العميقة. على الرغم من أنها أكثر كثافة حسابية بقليل من دالة ReLU، إلا أن فوائد أدائها غالبًا ما تبرر استخدامها في النماذج واسعة النطاق المتاحة من خلال أطر مثل PyTorch و TensorFlow. يمكنك استكشاف نماذج مختلفة وتدريبها باستخدام أدوات مثل Ultralytics HUB.

GELU (الوحدة الخطية للخطأ الغاوسي)

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف يعمل GELU

مقارنة مع وظائف التنشيط الأخرى

مزايا GELU

العيوب والاعتبارات

التطبيقات والأهمية

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

GELU (الوحدة الخطية للخطأ الغاوسي)

تدريب YOLO النماذجببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف يعمل GELU

مقارنة مع وظائف التنشيط الأخرى

مزايا GELU

العيوب والاعتبارات

التطبيقات والأهمية

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB