تانه، أو الظل الزائدي، هي دالة تنشيط معروفة على نطاق واسع تُستخدم في الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، خاصةً في الشبكات العصبية (NNs). وعلى غرار الدالة السيجمائية، تكون دالة تانه على شكل حرف S (دالة سيغمية) لكنها تحدد قيم المدخلات في نطاق يتراوح بين -1 و1. هذه الخاصية تجعلها متمركزة حول الصفر، مما يعني أن مخرجاتها موزعة حول الصفر. وكغيرها من دوال التنشيط الأخرى، تُدخل تانه خاصية اللاخطية في الشبكة، مما يمكّن نماذج التعلّم العميق (DL) من تعلّم الأنماط والعلاقات المعقدة في البيانات التي لا تستطيع النماذج الخطية التقاطها. وهي مشتقة من دالة الظل الزائدي الرياضية.
كيف يعمل تانه
تأخذ دالة تانه أي مدخلات ذات قيمة حقيقية وتضغطها في النطاق (-1، 1). تنتج المدخلات القريبة من الصفر مخرجات قريبة من الصفر. تنتج المدخلات الموجبة الكبيرة مخرجات تقترب من 1، بينما تنتج المدخلات السالبة الكبيرة مخرجات تقترب من -1. غالبًا ما تُعتبر طبيعته المتمركزة حول الصفر ميزة على الدالة السيجيمية (التي تنتج مخرجات بين 0 و1) لأنها يمكن أن تساعد خوارزمية التحسين مثل نزول التدرج على التقارب بشكل أسرع أثناء تدريب النموذج. ويرجع ذلك إلى أن التدرجات التي يتم تمريرها مرة أخرى أثناء الترحيل العكسي من المرجح أن يكون لها قيم موجبة وسالبة متوازنة، مما قد يؤدي إلى تحديثات أكثر استقرارًا لأوزان النموذج.
المزايا والعيوب
المزايا:
- مخرجات مركزها صفر: تساعد النواتج التي تتراوح من -1 إلى 1 على توسيط البيانات التي تم تمريرها إلى الطبقات اللاحقة، مما يمكن أن يحسّن ديناميكيات التدريب مقارنةً بالدوال غير ذات التمركز الصفري مثل الدالة السيجويدية.
- تدرجات أقوى: بالمقارنة مع Sigmoid، فإن تانه لديه تدرجات أكثر انحدارًا حول الصفر، مما قد يخفف من مشكلة تلاشي التدرج إلى حد ما أثناء التدريب، مما يسمح بتعلم أسرع.
العيوب:
- التدرجات المتلاشية: مثل دالة Sigmoid، لا يزال تانه يعاني من مشكلة التدرج المتلاشي. فبالنسبة للمدخلات الموجبة أو السالبة الكبيرة جدًا، تتشبع الدالة (يصبح خرجها قريبًا جدًا من 1 أو -1)، ويصبح التدرج صغيرًا للغاية، مما يعيق تحديثات الوزن في الطبقات العميقة.
- التكلفة الحسابية: يتضمن تانه عمليات حسابية قطعية زائدة، مما يجعلها أكثر تكلفة حسابية بقليل من الدوال الأبسط مثل ReLU (الوحدة الخطية المعدلة).
تانه مقابل وظائف التفعيل الأخرى
- تانه مقابل سيغمي: كلاهما شكل سيغمي ولكن نطاق خرج تانه هو (-1، 1) بينما نطاق خرج سيغمويد هو (0، 1). غالباً ما يُفضّل استخدام خاصية تانه المتمركزة حول الصفر في الطبقات المخفية، بينما يُستخدم الدوال السهمية عادةً في طبقات الخرج لمهام التصنيف الثنائي حيث تكون هناك حاجة إلى احتمال.
- تانه مقابل ReLU: تتراوح مخرجات ReLU من 0 إلى ما لا نهاية وهي فعالة جداً من الناحية الحسابية. تتجنب ReLU التشبع في المدخلات الموجبة ولكنها يمكن أن تعاني من مشكلة "موت ReLU" (حيث تصبح الخلايا العصبية غير نشطة). في حين أن تانه يشبع عند كلا الطرفين، إلا أن طبيعته المتمركزة حول الصفر يمكن أن تكون مفيدة. ومع ذلك، فقد حلّت ReLU ومتغيراتها(ReLU المتسرّبة وGELU وSILU) إلى حد كبير محل تانه في العديد من بنيات التعلم العميق الحديثة، خاصة في الرؤية الحاسوبية، وذلك بسبب تدفق التدرج والكفاءة الأفضل. يمكنك استكشاف وظائف التنشيط المختلفة في التعلم العميق.
تطبيقات في الذكاء الاصطناعي والتعلم الآلي
لطالما كان "تانه" خياراً شائعاً على مر التاريخ، خاصة في:
- الشبكات العصبية المتكررة (RNNs): شاع استخدام تانه في الحالات الخفية للشبكات العصبية المتكررة (RNNs) ومتغيراتها مثل شبكات الذاكرة طويلة المدى القصيرة الأجل (LSTM) ، خاصةً في مهام معالجة اللغات الطبيعية (NLP). يساعد مداها المحدود في تنظيم تدفق المعلومات داخل الاتصالات المتكررة. راجع فهم LSTMs لمزيد من التفاصيل.
- الطبقات المخفية: يمكن استخدامه في الطبقات المخفية للشبكات المغذية، على الرغم من أن متغيرات ReLU أصبحت الآن أكثر شيوعًا. ويمكن اختيارها عندما تكون خاصية التمركز الصفري مفيدة بشكل خاص للمشكلة أو البنية المحددة.
- تحليل المشاعر: في النماذج القديمة في البرمجة اللغوية العصبية اللغوية العصبية، ساعد تانه في تعيين الميزات المستخرجة من النص (على سبيل المثال، تضمينات الكلمات التي تتم معالجتها بواسطة شبكة RNN) إلى نطاق متواصل، يمثل قطبية المشاعر من السلبية (-1) إلى الإيجابية (+1). توفر الموارد من منظمات مثل مجموعة ستانفورد للبرمجة اللغوية العصبية خلفية عن هذه التقنيات.
- أنظمة التحكم والروبوتات: في التعلم المعزز (RL)، يُستخدم تانه أحيانًا كدالة تنشيط نهائية للسياسات التي تُخرج إجراءات مستمرة محصورة ضمن نطاق محدد (على سبيل المثال، التحكم في عزم دوران المحرك بين -1 و +1). غالبًا ما تُستخدم أطر عمل مثل OpenAI Gym في أبحاث RL.
في حين أن البنى الحديثة مثل Ultralytics YOLO غالبًا ما تستخدم دوال مثل SiLU لمهام مثل اكتشاف الأجسام، فإن فهم تانه يبقى ذا قيمة. فهو يوفر سياقًا لتطور وظائف التنشيط وقد يستمر ظهوره في تصميمات شبكات محددة أو أنظمة قديمة. أطر عمل مثل PyTorch و TensorFlow تطبيقات ل Tanh. يمكنك تدريب وتجربة وظائف تنشيط مختلفة باستخدام منصات مثل Ultralytics HUB.