Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الوحدة الخطية للخطأ الغاوسي (GELU)

اكتشف كيف تعزز دالة التنشيط GELU نماذج المحولات مثل GPT-4، مما يزيد من تدفق التدرج والاستقرار والكفاءة.

الوحدة الخطية للخطأ الغاوسي (GELU) هي دالة تنشيط معتمدة على نطاق واسع المعتمدة على نطاق واسع والتي أصبحت حجر الزاوية في الشبكات العصبية الحديثة (NN) ، خاصةً تلك التي تتضمن محولات. على عكس التقليدية التي تفرض عتبة صلبة على المدخلات، توفر دالة GELU انتقالًا أكثر سلاسة وغير رتيبة. هذه الخاصية الفريدة الفريدة من نوعها تسمح لها بتقييم المدخلات حسب حجمها، مما يسد الفجوة بين اللاخطية الحتمية وتقنيات التنظيم العشوائي. استخدامها على نطاق واسع في النماذج الرئيسية مثل سلسلة سلسلة GPT و BERT يسلط الضوء على قدرتها على مساعدة الأنظمة على تعلم الأنماط المعقدة ضمن مجموعات بيانات كبيرة.

كيف تعمل GELU

على المستوى الأساسي، تعمل GELU كحارس للمعلومات المتدفقة من خلال نموذج التعلم العميق (DL). في حين أن الوظائف القديمة مثل الوحدة الخطية المصححة (ReLU) تقطع بشكل كبير تقطع القيم السالبة عن طريق تعيينها إلى الصفر، فإن GELU تتخذ نهجًا أكثر دقة. فهي تضرب قيمة المدخلات في في في دالة التوزيع التراكمي (CDF) من للتوزيع الغاوسي القياسي.

تعني هذه العملية أن التنشيط يسقط المعلومات بشكل احتمالي مع انخفاض المدخلات، ولكنه يفعل ذلك بزاوية منحنى سلس بدلاً من زاوية حادة. تحسّن هذه السلاسة من تدفق المعلومات أثناء عملية أثناء الترحيل العكسي، مما يساعد على التخفيف من مشكلة من مشكلة التدرج المتلاشي التي يمكن أن تعيق تدريب الشبكات العميقة. من خلال دمج خصائص التوزيع الغاوسي، تقدم GELU شكلاً من أشكال انحناء يسمح للنموذج بالتقاط علاقات البيانات المعقدة بشكل أفضل مقارنةً بالبدائل الخطية.

GELU مقابل دوال التفعيل الأخرى

يتطلّب فهم موقع GELU تمييزه عن دوال التنشيط الشائعة الأخرى الموجودة في مسرد مصطلحات الذكاء الاصطناعي.

  • GELU ضد ReLU ReLU فعالة من الناحية الحسابية وتخلق تباعدًا من خلال استبعاد المدخلات السالبة. ومع ذلك، فإن "الزاوية" الحادة "الحاد عند الصفر يمكن أن يوقف التدريب. يتجنب انحناء GELU السلس هذا الأمر، مما يؤدي غالبًا إلى زيادة دقة أعلى في المهام المعقدة.
  • GELU مقابل Leaky ReLU: تحاول وحدة إعادة التثبيت المتسربة إصلاح الخلايا العصبية الميتة من خلال السماح بميل بميل سالب صغير وثابت. على النقيض من ذلك، فإن GELU غير خطية وغير رتيبة، مما يعني أن ميلها يتغير بناءً على على حجم المدخلات، مما يوفر قدرة تمثيلية أكثر ثراءً.
  • GELU مقابل SiLU (Swish): الوحدة الخطية السيجيمية (SiLU ) هي مشابهة جداً من الناحية الهيكلية لوحدة GELU وتشترك معها في خصائصها السلسة وغير الرتابية. في حين أن GELU هي السائدة في معالجة اللغات الطبيعية (NLP)، غالبًا ما يُفضَّل استخدام SiLU في معماريات الرؤية الحاسوبية، مثل Ultralytics YOLO11 نموذج الكشف عن الأشياء، وذلك بسبب الكفاءة الطفيفة في الطبقات التلافيفية.

تطبيقات واقعية

تُعد GELU جزءًا لا يتجزأ من بعض التطبيقات الأكثر تقدمًا في الذكاء الاصطناعي (AI).

  • النماذج اللغوية الكبيرة (LLMs): يساعد الانحناء المحدد لـ GELU النماذج على فهم الفروق اللغوية الدقيقة. على سبيل المثال، في تحليل المشاعر أو تلخيص النص، تضمن وظيفة التنشيط تضمن الحفاظ على إشارات السياق الدقيقة في أعماق طبقات الشبكة، مما يتيح النص المتماسك في روبوتات الدردشة الآلية الحديثة.
  • محولات الرؤية (ViT): بالانتقال إلى ما هو أبعد من النص، يتم استخدام GELU في محولات الرؤية، والتي تطبق آليات الانتباه الذاتي على تصنيف الصور. من خلال تسهيل استقرار نزول التدرج المستقر، يسمح GELU لهذه النماذج معالجة بقع الصور بفعالية، وتحديد الأجسام في المشاهد المزدحمة بدقة عالية.

التنفيذ في Python

يعد دمج GELU في نموذج مخصص أمرًا بسيطًا ومباشرًا باستخدام أطر عمل حديثة مثل PyTorch أو TensorFlow. يوضّح المثال التالي كيفية إنشاء طبقة GELU ضمن مكوّن نموذج PyTorch .

import torch
import torch.nn as nn

# Define a sample input tensor (batch_size=1, features=5)
input_data = torch.tensor([[-3.0, -1.0, 0.0, 1.0, 3.0]])

# Initialize the GELU activation function
gelu_layer = nn.GELU()

# Apply GELU to the input data
output = gelu_layer(input_data)

# Output demonstrates the smooth suppression of negative values
print(f"Input: {input_data}")
print(f"Output: {output}")

يستخدم هذا المقتطف torch.nn.GELU، موثقة في واجهة برمجة تطبيقات PyTorch GELU الرسميةلـ تحويل البيانات المُدخَلة. لاحظ كيف يتم كبت القيم السالبة ولكن لا يتم اقتطاعها بشدة إلى الصفر، مما يحافظ على سلاسة التدرّج السلس الضروري لتدريب قوي التعلُّم الآلي (ML) النماذج. لمزيد من القراءة عن الأسس الرياضية، يمكن الاطلاع على الورقة البحثية الأصلية "الوحدات الخطية للخطأ الغاوسي (GELUs)"، يوفر السياق النظري الشامل.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن