Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

طبقة التسرب

اكتشف كيف تمنع طبقات التسرب (dropout layers) التجاوز في الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.

طبقة التسرب هي تقنية أساسية أساسية تستخدم في الشبكات العصبونية (NN) لمنع المشكلة الشائعة من الإفراط في التركيب. عندما يتم تدريب نموذج على مجموعة بيانات, فإنه يخاطر بتعلم الضوضاء والتفاصيل الخاصة ببيانات التدريب بيانات التدريب بدلاً من الأنماط العامة الأساسية العامة الأساسية. يؤدي هذا الحفظ إلى ضعف الأداء على البيانات الجديدة غير المرئية. يعالج التسرب هذا الأمر عن طريق إلغاء تنشيط -أو "إسقاط"- جزء من الخلايا العصبية في الطبقة خلال كل خطوة من خطوات التدريب عملية التدريب. تم تقديم هذه الاستراتيجية البسيطة والفعالة في ورقة بحثية أساسية من قبل جيفري هينتون وزملائه وزملائه، مما أدى إلى تقدم كبير في مجال التعلم العميق (DL).

كيفية عمل طبقات التسرب

الآلية الكامنة وراء طبقة التسرب واضحة ولكنها قوية. أثناء مرحلة تدريب النموذج، تولد الطبقة قناعًا من الأصفار والآحاد بناءً على احتمال محدد، يُعرف باسم معدل التسرب. إذا تم ضبط المعدل على 0.5, يتم تجاهل 50% تقريباً من الخلايا العصبية مؤقتاً خلال ذلك التمرير الأمامي والخلفي. هذا يجبر الخلايا العصبية الخلايا العصبية النشطة المتبقية على التقدم وتعلم ميزات قوية بشكل مستقل، مما يمنع الشبكة من الاعتماد بشكل كبير على بشكل كبير على أي خلية عصبية واحدة - وهي ظاهرة تعرف باسم التكيف المشترك.

أثناء الاستدلال، أو مرحلة الاختبار، يتم عادةً إيقاف تشغيل يتم إيقاف تشغيل طبقة التسرب عادةً. تكون جميع الخلايا العصبية نشطة للاستفادة من السعة الكاملة للنموذج المدرَّب. من أجل ضمان بقاء قيم التنشيط الإجمالية متسقة مع مرحلة التدريب، غالباً ما يتم تحجيم الأوزان تلقائيًا بواسطة إطار العمل. المكتبات الحديثة مثل PyTorch تتعامل مع هذه العمليات بسلاسة في تنفيذ التسرب.

بالنسبة لمستخدمي ultralytics حزمة تطبيق التسرب على نموذج مثل YOLO11 بسيطة مثل تعديل حجة التدريب.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a dataset with a custom dropout rate of 0.2
# This helps prevent overfitting on smaller datasets
results = model.train(data="coco8.yaml", epochs=10, dropout=0.2)

تطبيقات واقعية

التسرب لا غنى عنه في مختلف مجالات الذكاء الاصطناعي حيث حيث تكون النماذج عرضة للإفراط في التركيب بسبب الأعداد الكبيرة من المعلمات أو البيانات المحدودة.

  1. الرؤية الحاسوبية: في مهام مثل تصنيف الصور و واكتشاف الأجسام، يساعد التسرب النماذج على التعميم بشكل أفضل في بيئات العالم الحقيقي المتنوعة. على سبيل المثال، في حلول الذكاء الاصطناعي للسيارات، يجب أن يكون نموذج الرؤية المدرّب للتعرف على المشاة يجب أن يعمل بشكل موثوق في ظروف الطقس والإضاءة المختلفة. يضمن التسرب أن النموذج يركز النموذج على الأشكال والميزات الأساسية بدلاً من حفظ أنسجة خلفية محددة من مجموعة البيانات القياسية. مجموعة البيانات القياسية.
  2. معالجة اللغة الطبيعية (NLP): التسرب هو مكون قياسي في بنيات المحولات المستخدمة في نماذج اللغات الكبيرة (LLMs). عند نماذج التدريب للترجمة الآلية أو أو تحليل المشاعر، فإن التسرب يمنع الشبكة الشبكة من الإفراط في الاعتماد على تسلسلات محددة من الكلمات، مما يشجعها على التقاط المعاني الدلالية الأعمق و والتراكيب النحوية الأعمق.

الفروق بين المفاهيم ذات الصلة

يعد فهم كيفية اختلاف التسرب عن التقنيات الأخرى أمرًا بالغ الأهمية من أجل تحقيق فعالية الفعالة لضبط المعامل الفائق.

  • التسرب مقابل زيادة البيانات: بينما تعمل كلتا الطريقتين على تحسين التعميم, تعمل زيادة البيانات من خلال توسيع مجموعة التدريب بشكل مصطنع من خلال التحويلات مثل التدوير والقياس. على النقيض من ذلك، فإن التسرب يعدل بنية الشبكة نفسها ديناميكيًا. غالبًا ما يتم الجمع بين هاتين الطريقتين؛ على سبيل المثال يتم استخدام زيادة بياناتYOLO جنبًا إلى جنب مع التسرب لزيادة متانة النموذج إلى أقصى حد.
  • التسرب مقابل التطبيع الدفعي: يعمل التطبيع الدفعي على تطبيع مدخلات كل طبقة لتثبيت عملية التعلّم والسماح بمعدلات تعلّم أعلى. في حين أن لها تأثيرًا تنظيميًا طفيفًا طفيف، فإن هدفها الأساسي هو تحسين السرعة والثبات، في حين أن التسرب مصمم بشكل صريح لتقليل تعقيد النموذج تعقيد النموذج.
  • تضاؤل الوزن مقابل تضاؤل الوزن (تسوية L2): يضيف تناقص الوزن حدًا جزائيًا إلى دالة الخسارة بما يتناسب مع حجم الأوزان، مما يقلصها نحو الصفر. ومع ذلك، فإن التسرب يخلق تأثيرًا جماعيًا من خلال تدريب شبكات فرعية الشبكات الفرعية المختلفة في كل حقبة، مما يوفر زاوية مختلفة من مختلفة من التنظيم. يمكن العثور على مزيد من القراءة حول هذه الاختلافات في ملاحظات دورة ستانفورد CS231n.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن