مسرد المصطلحات

سوفت ماكس

اكتشف كيف تقوم Softmax بتحويل الدرجات إلى احتمالات لمهام التصنيف في الذكاء الاصطناعي، مما يعزز من نجاح التعرف على الصور والبرمجة اللغوية العصبية.

سوفت ماكس هي دالة رياضية تقوم بتحويل متجه من الدرجات الخام ذات القيمة الحقيقية، والتي غالباً ما تسمى لوغاريتمات، إلى متجه من الاحتمالات. في سياق التعلم الآلي (ML)، تُستخدم Softmax بشكل أساسي كدالة تنشيط في طبقة الخرج للشبكة العصبية. ويتمثل دورها الرئيسي في تحويل الدرجات النهائية للشبكة إلى توزيع احتمالي ذي معنى على فئات متعددة متنافية. ويصل مجموع الاحتمالات الناتجة إلى واحد، مما يجعل من السهل تفسيرها على أنها ثقة النموذج لكل نتيجة محتملة.

كيف تعمل سوفت ماكس

تخيل شبكة عصبية تحاول تحديد الفئة التي تنتمي إليها الصورة. تنتج الطبقة الأخيرة من الشبكة مجموعة من الدرجات الأولية لكل فئة. تشير الدرجة الأعلى إلى أن النموذج يميل أكثر نحو تلك الفئة، لكن هذه الدرجات ليست موحدة وقد يكون من الصعب التعامل معها مباشرةً.

تأخذ دالة Softmax هذه الدرجات وتنفذ خطوتين رئيسيتين:

  1. يطبق الدالة الأسية على كل درجة. وهذا يجعل جميع القيم موجبة ويضخم الفروق بينها - حيث تصبح الدرجات الأكبر حجمًا أكبر نسبيًا.
  2. يقوم بتطبيع هذه الدرجات المضروبة في أس بقسمة كل منها على مجموعها. تعمل هذه الخطوة على تحجيم القيم بحيث يصبح مجموعها مجتمعةً 1.0، مما يؤدي فعليًا إلى إنشاء توزيع احتمالي.

الناتج النهائي هو قائمة بالاحتمالات، حيث تمثّل كل قيمة الاحتمالات التي يتنبأ فيها النموذج باحتمالية انتماء المدخلات إلى فئة معينة. ثم يتم اختيار الفئة ذات الاحتمال الأعلى كتوقع نهائي.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

Softmax أساسي لأي نموذج تعلّم عميق يقوم بتصنيف متعدد الفئات. وقدرته على توفير مخرجات واضحة واحتمالية تجعله لا يقدر بثمن في مختلف المجالات.

  • Image Classification: This is the most common use case. A Convolutional Neural Network (CNN) trained on a dataset like ImageNet will use Softmax in its final layer. For an image of a pet, the model might output probabilities like {Dog: 0.9, Cat: 0.08, Rabbit: 0.02}, clearly indicating its prediction. Models like Ultralytics YOLO use this for classification tasks.
  • معالجة اللغة الطبيعية (NLP): في نمذجة اللغة، يُستخدم Softmax للتنبؤ بالكلمة التالية في تسلسل ما. يقوم نموذج مثل المحول بحساب درجة لكل كلمة في مفرداته ويستخدم Softmax لتحويل هذه الدرجات إلى احتمالات. يعد هذا مكونًا أساسيًا في نماذج اللغات الكبيرة (LLMs ) ويدعم التطبيقات من الترجمة الآلية إلى توليد النصوص.
  • تحليل الصور الطبية: عند تحليل الفحوصات الطبية لتصنيف أنواع مختلفة من الأنسجة أو تحديد الأمراض (على سبيل المثال، حميدة أو خبيثة أو سليمة)، سيستخدم نموذج سوفت ماكس لتعيين احتمال لكل تشخيص، مما يساعد الأطباء على اتخاذ قرارات أكثر استنارة.
  • التعلّم المعزز: في التعلّم المعزز القائم على السياسات، يمكن استخدام Softmax لتحويل القيم المكتسبة للإجراءات المختلفة إلى سياسة، وهي عبارة عن توزيع احتمالي على الإجراءات المحتملة التي يمكن أن يتخذها الوكيل.

سوفت ماكس مقابل وظائف التنشيط الأخرى

من المهم التمييز بين سوفت ماكس ووظائف التنشيط الشائعة الأخرى، لأنها تخدم أغراضًا مختلفة.

  • الدالة السيجميّة: تُخرِج دالة Sigmoid أيضًا قيمًا بين 0 و 1، لكنها تُستخدم للتصنيف الثنائي (فئة مقابل أخرى) أو التصنيف متعدد التسميات، حيث يمكن أن ينتمي المدخل إلى فئات متعددة في آنٍ واحد. على سبيل المثال، يمكن تصنيف فيلم على أنه "كوميدي" و"أكشن". على النقيض من ذلك، يُستخدم Softmax للتصنيف متعدد الفئات، حيث تكون الفئات متنافية - يجب أن يكون الرقم المكتوب بخط اليد 7 أو 8، ولكن ليس كلاهما.
  • ReLU (الوحدة الخطية المعدلة): تُستخدم وحدة ReLU ومتغيراتها مثل ReLU المُعدلة و SiLU في الطبقات المخفية للشبكة العصبية. وظيفتها الأساسية هي إدخال اللاخطية، مما يسمح للنموذج بتعلم الأنماط المعقدة في البيانات. وهي لا تنتج احتمالات ولا تُستخدم كدوال مخرجات للتصنيف.
  • تانه (الظل القطعي): تانه يسحق القيم إلى نطاق يتراوح بين -1 و 1. مثل ReLU، يتم استخدامه في الطبقات المخفية، خاصةً في البنى القديمة للشبكات العصبية المتكررة (RNN). وهي غير مناسبة لإنتاج مخرجات احتمالية لمهام التصنيف.

الاعتبارات العملية

على الرغم من قوة Softmax، إلا أنه يمكن أن يكون حساسًا لدرجات المدخلات الكبيرة جدًا، مما قد يؤدي أحيانًا إلى عدم الاستقرار العددي (تجاوز أو نقصان التدفق). ولمعالجة هذا الأمر، تقوم أطر التعلم العميق الحديثة مثل PyTorch و TensorFlow بتنفيذ إصدارات مستقرة عدديًا من Softmax خلف الكواليس.

يتم إقران Softmax دائمًا تقريبًا بدالة خسارة محددة تسمى الخسارة المتقاطعة (أو خسارة السجل) أثناء تدريب النموذج. هذا المزيج فعال للغاية لتدريب المصنفات متعددة الفئات. يعد فهم سلوك سوفت ماكس أمرًا بالغ الأهمية لتدريب النموذج وتفسيره بشكل فعال، والذي يمكن إدارته وتتبعه باستخدام منصات مثل Ultralytics HUB لتبسيط التجارب وعمليات النشر.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة