اكتشف كيف تمنع طبقات التسرب (dropout layers) التجاوز في الشبكات العصبية من خلال تحسين التعميم والمتانة وأداء النموذج.
طبقة التسرب هي تقنية أساسية أساسية تستخدم في الشبكات العصبونية (NN) لمنع المشكلة الشائعة من الإفراط في التركيب. عندما يتم تدريب نموذج على مجموعة بيانات, فإنه يخاطر بتعلم الضوضاء والتفاصيل الخاصة ببيانات التدريب بيانات التدريب بدلاً من الأنماط العامة الأساسية العامة الأساسية. يؤدي هذا الحفظ إلى ضعف الأداء على البيانات الجديدة غير المرئية. يعالج التسرب هذا الأمر عن طريق إلغاء تنشيط -أو "إسقاط"- جزء من الخلايا العصبية في الطبقة خلال كل خطوة من خطوات التدريب عملية التدريب. تم تقديم هذه الاستراتيجية البسيطة والفعالة في ورقة بحثية أساسية من قبل جيفري هينتون وزملائه وزملائه، مما أدى إلى تقدم كبير في مجال التعلم العميق (DL).
الآلية الكامنة وراء طبقة التسرب واضحة ولكنها قوية. أثناء مرحلة تدريب النموذج، تولد الطبقة قناعًا من الأصفار والآحاد بناءً على احتمال محدد، يُعرف باسم معدل التسرب. إذا تم ضبط المعدل على 0.5, يتم تجاهل 50% تقريباً من الخلايا العصبية مؤقتاً خلال ذلك التمرير الأمامي والخلفي. هذا يجبر الخلايا العصبية الخلايا العصبية النشطة المتبقية على التقدم وتعلم ميزات قوية بشكل مستقل، مما يمنع الشبكة من الاعتماد بشكل كبير على بشكل كبير على أي خلية عصبية واحدة - وهي ظاهرة تعرف باسم التكيف المشترك.
أثناء الاستدلال، أو مرحلة الاختبار، يتم عادةً إيقاف تشغيل يتم إيقاف تشغيل طبقة التسرب عادةً. تكون جميع الخلايا العصبية نشطة للاستفادة من السعة الكاملة للنموذج المدرَّب. من أجل ضمان بقاء قيم التنشيط الإجمالية متسقة مع مرحلة التدريب، غالباً ما يتم تحجيم الأوزان تلقائيًا بواسطة إطار العمل. المكتبات الحديثة مثل PyTorch تتعامل مع هذه العمليات بسلاسة في تنفيذ التسرب.
بالنسبة لمستخدمي ultralytics حزمة تطبيق التسرب على نموذج مثل
YOLO11 بسيطة مثل تعديل حجة التدريب.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a dataset with a custom dropout rate of 0.2
# This helps prevent overfitting on smaller datasets
results = model.train(data="coco8.yaml", epochs=10, dropout=0.2)
التسرب لا غنى عنه في مختلف مجالات الذكاء الاصطناعي حيث حيث تكون النماذج عرضة للإفراط في التركيب بسبب الأعداد الكبيرة من المعلمات أو البيانات المحدودة.
يعد فهم كيفية اختلاف التسرب عن التقنيات الأخرى أمرًا بالغ الأهمية من أجل تحقيق فعالية الفعالة لضبط المعامل الفائق.