مسرد المصطلحات

الوحدة الخطية السهمية (SiLU)

اكتشف كيف تعمل دالة التنشيط SiLU (Swish) على تعزيز أداء التعلُّم العميق في مهام الذكاء الاصطناعي مثل اكتشاف الأجسام والبرمجة اللغوية العصبية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

SiLU (الوحدة الخطية السيجيمية)، والمعروفة أيضًا باسم دالة Swish، هي دالة تنشيط تُستخدم في نماذج التعلّم العميق (DL )، خاصةً في الشبكات العصبية (NN). تم اقتراحها من قبل باحثين في Google واكتسبت شعبية بسبب فعاليتها في تحسين أداء النموذج مقارنةً بوظائف التنشيط التقليدية مثل ReLU و Sigmoid. تُقدَّر دالة SiLU لسلاستها وخصائصها غير الرتابة التي يمكن أن تساعد في تدفق التدرج وتحسين النموذج. لفهم أوسع، راجع نظرة عامة على دالة التنشيط العامة.

كيف تعمل SiLU

يُعرَّف SiLU بأنه حاصل ضرب المدخلات و سيني المطبقة على المدخلات. بشكل أساسي, SiLU(x) = x * sigmoid(x). وتسمح هذه الصيغة لوحدة القياس الخطية المستقيمة أن تعمل كآلية ذاتية التحديد، حيث يحدد المكون المنجلي مدى تأثير المدخلات الخطية x يمر عبرها. عندما يكون الخرج السيني قريبًا من 1، يمر المدخل دون تغيير تقريبًا (على غرار ReLU للقيم الموجبة)، وعندما يكون قريبًا من 0، يتم كبح الخرج نحو الصفر. على عكس ReLU، تكون SiLU سلسة وغير رتيبة (يمكن أن تنخفض حتى عندما تزيد المدخلات)، وهي خصائص مستمدة من تفاصيل الوظيفة السينيّة المكوّن. تم تفصيل المفهوم في ورق حويش أصلي.

مزايا SiLU

تقدم SiLU العديد من المزايا التي تساهم في فعاليتها في نماذج التعلم العميق:

  • السلاسة: على عكس دالة ReLU، فإن SiLU هي دالة سلسة، مما يعني أن مشتقاتها مستمرة. يمكن أن تكون هذه السلاسة مفيدة لخوارزميات التحسين المستندة إلى التدرج أثناء الترحيل العكسي، مما يؤدي إلى تدريب أكثر استقرارًا.
  • عدم الاطراد: قد يساعد شكل الدالة، الذي ينخفض قليلاً للمدخلات السالبة قبل أن يرتفع نحو الصفر، الشبكة على تمثيل أنماط أكثر تعقيداً.
  • تجنب التدرجات المتلاشية: في حين أن الدوال الجيبية يمكن أن تعاني بشكل كبير من مشكلة تلاشي التدرج في الشبكات العميقة، فإن دالة SiLU تخفف من هذه المشكلة، خاصةً بالنسبة للمدخلات الموجبة حيث تتصرف خطيًا، على غرار ReLU.
  • تحسين الأداء: أظهرت الدراسات التجريبية أن استبدال ReLU بـ SiLU يمكن أن يؤدي إلى تحسينات في دقة النموذج عبر مختلف المهام ومجموعات البيانات، خاصةً في البنى الأعمق.

مقارنة مع وظائف التنشيط الأخرى

تتميز SiLU عن دوال التنشيط الشائعة الأخرى:

  • ريلو ريلو أبسط من الناحية الحسابية (max(0, x)) وخطية للقيم الموجبة، ولكنها تعاني من مشكلة "ReLU المحتضرة" حيث يمكن أن تصبح الخلايا العصبية غير نشطة للمدخلات السالبة. انظر إلى شرح ReLU. تتميز SiLU بالسلاسة وتتجنب هذه المشكلة بسبب مخرجاتها غير الصفرية للقيم السالبة.
  • السيجمي: يعيِّن الشكل السيجيمي المدخلات إلى نطاق بين 0 و1 ولكنه يعاني من التشبع وتلاشي التدرجات، مما يجعله أقل ملاءمة للطبقات المخفية في الشبكات العميقة مقارنةً بـ SiLU.
  • ReLU المتسرب: تعالج الـ ReLU المتسربة مشكلة الـ ReLU المحتضرة من خلال السماح بتدرج صغير غير صفري للمدخلات السالبة. تقدم SiLU شكلًا مختلفًا أكثر سلاسة.
  • GELU: GELU (الوحدة الخطية للخطأ الغاوسي) هي دالة تنشيط سلسة أخرى تعمل غالبًا بشكل مشابه لوحدة خطية للخطأ الغاوسي. تعتبر SiLU بشكل عام أبسط حسابيًا بشكل عام من GELU.

تطبيقات SiLU

إن SiLU متعدد الاستخدامات وقد تم تطبيقه بنجاح في مجالات مختلفة حيث يتم استخدام نماذج التعلم العميق:

التنفيذ

يتوفر SiLU بسهولة في أطر التعلم العميق الرئيسية:

تدعم منصات مثل Ultralytics HUB نماذج التدريب واستكشاف خيارات النشر المختلفة للنماذج التي تستخدم مكونات متقدمة مثل SiLU. تساعد الأبحاث والموارد المستمرة من مؤسسات مثل DeepLearning.AI الممارسين على الاستفادة من هذه الوظائف بفعالية.

قراءة الكل