Catastrophic Forgetting

اكتشف كيفية منع النسيان الكارثي في الشبكات العصبية. استكشف استراتيجيات التخفيف المثبتة عند تدريب نماذج Ultralytics YOLO الخاصة بك.

النسيان الكارثي، والذي يُشار إليه غالبًا باسم التداخل الكارثي، هو ظاهرة مدروسة على نطاق واسع في تعلم الآلة حيث تفقد الشبكة العصبية الاصطناعية بشكل مفاجئ معلومات تعلمتها مسبقًا عند تعلم مهام جديدة. عندما يخضع نموذج لتدريب متسلسل للتكيف مع مجموعة بيانات جديدة، تقوم خوارزميات التحسين التي تستخدم الانتشار العكسي بتحديث أوزان النموذج. غالبًا ما تؤدي هذه العملية عن غير قصد إلى الكتابة فوق التمثيلات الرياضية المطلوبة للمهام السابقة. ونتيجة لذلك، قد يعاني نظام الذكاء الاصطناعي الذي تم تحسينه بشكل كبير لغرضه الأصلي من تدهور حاد في الأداء في تلك المهام الأولية إذا تم تدريبه حصريًا على بيانات جديدة دون تدابير مضادة محددة.

Link to this sectionلماذا يحدث النسيان الكارثي#

في التعلم العميق، يتم تخزين معرفة النموذج عبر شبكة موزعة من الخلايا العصبية المترابطة. أثناء الضبط الدقيق، تقوم وظائف التحسين مثل Stochastic Gradient Descent بتعديل هذه الروابط لتقليل الخطأ في البيانات الجديدة. إذا كانت مجموعة بيانات التدريب الجديدة لا تحتوي على أمثلة للفئات الأصلية، فإن عملية التحسين تحول الأوزان نحو توزيع البيانات الجديد، مما يمحو "ذاكرة" التوزيع القديم بفعالية. تشير الدراسات الحديثة حول التحول الهيكلي إلى أن هذا الانهيار الداخلي يحد بشكل أساسي من قدرة الشبكات العصبية الحديثة على تحقيق التعلم مدى الحياة الشبيه بالبشر بشكل تلقائي.

Link to this sectionالتمييز بين المفاهيم ذات الصلة#

من الضروري التمييز بين النسيان الكارثي ومفاهيم الذكاء الاصطناعي الأخرى:

النسيان الكارثي مقابل انهيار النموذج: بينما يحدث النسيان بسبب تعلم مهام جديدة بشكل تدريجي، فإن انهيار النموذج هو تدهور تدريجي في الأداء في نفس المهمة عندما يتدرب نموذج بشكل متكرر على بيانات اصطناعية تم إنشاؤها بواسطة نماذج ذكاء اصطناعي أخرى.
النسيان الكارثي مقابل التعلم المستمر: التعلم المستمر هو منهجية البحث الشاملة التي تهدف إلى حل النسيان الكارثي. تحاول خوارزميات التعلم المستمر تمكين النماذج من اكتساب معارف جديدة بشكل متسلسل دون نسيان المعارف السابقة.

Link to this sectionأمثلة من العالم الحقيقي#

يشكل النسيان الكارثي تحديًا كبيرًا عبر مختلف مجالات الذكاء الاصطناعي التي تعمل في بيئات العالم الحقيقي الديناميكية:

الأنظمة المستقلة: في خطوط أنابيب الإدراك للمركبات المستقلة، قد يتم ضبط الرؤية الحاسوبية التي تم تدريبها في البداية للتعرف على المشاة وإشارات المرور القياسية لتعلم التعرف على إشارات بناء جديدة خاصة بمنطقة معينة. وبدون ضمانات، قد يعاني النظام فجأة من صعوبة في اكتشاف المشاة بشكل موثوق، مما يخلق خطرًا أمنيًا حادًا.
اللغة والذكاء الاصطناعي الإدراكي: عند تخصيص النماذج اللغوية الكبيرة لمهام خاصة بمجال معين -مثل التشخيص الطبي- قد ينسى النموذج محاذاته المحادثية أو مهارات التفكير العامة. يُظهر تحليل مقارن حديث لنماذج LLMs أن الضبط الدقيق القياسي على نصوص متخصصة للغاية يؤدي غالبًا إلى تآكل مواءمة السلامة السابقة، مما يتسبب في فقدان النماذج لقدراتها الأساسية في اتباع التعليمات.

Link to this sectionالتغلب على النسيان الكارثي#

يستخدم مهندسو الذكاء الاصطناعي العديد من الاستراتيجيات للتخفيف من هذه المشكلة والحفاظ على معضلة المرونة والاستقرار المثالية:

إعادة تشغيل مجموعة البيانات ودمجها: الطريقة الأكثر موثوقية هي خلط مجموعة فرعية من بيانات التدريب الأصلية مع البيانات الجديدة. تعمل أدوات مثل منصة Ultralytics على تبسيط إدارة وإصدار مجموعات البيانات المدمجة لضمان إعادة تشغيل الفئات الأصلية بفعالية أثناء التدريب.
توحيد الأوزان المرن (EWC): تحد تقنية التنظيم هذه من التحديثات للمعلمات التي كانت حاسمة للمهام القديمة. من خلال تحديد هذه الأوزان الرئيسية والحفاظ عليها، تقلل النماذج من النسيان، كما تم تسليط الضوء عليه في تجارب حديثة حول التغلب على نسيان الشبكة.
الضبط الدقيق الفعال للمعلمات (PEFT): تعمل أساليب مثل التكيف منخفض الرتبة (LoRA) على تجميد الأوزان الأساسية المدربة مسبقًا وحقن مصفوفات صغيرة قابلة للتدريب في الشبكة، مما يمنع الكتابة فوق المعرفة الأساسية.
تجميد الطبقات: في جولات التدريب الأقصر، يضمن تجميد طبقات العمود الفقري (backbone) والعنق (neck) بقاء مستخلصات الميزات الأساسية سليمة.
التحسين الخالي من التدرج: أثبتت أطر العمل المبتكرة مؤخرًا أن الأساليب القائمة على التمرير الأمامي يمكنها أيضًا التخفيف من النسيان بكفاءة في البيئات التي تكون فيها تحديثات التدرج مقيدة.

Link to this sectionمثال على التنفيذ في رؤية الذكاء الاصطناعي#

عند تكييف Ultralytics YOLO لمهمة جديدة في اكتشاف الكائنات، يعد تجميد الطبقات نهجًا فعالًا ويمكن الوصول إليه. يوضح المثال التالي كيفية تدريب نموذج Ultralytics YOLO26 على مجموعة بيانات جديدة مع منع النسيان الكارثي عن طريق تجميد الطبقات العشر الأولى.

from ultralytics import YOLO

# Load a pretrained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a combined dataset while freezing core backbone layers
# The 'freeze=10' argument prevents catastrophic forgetting of foundational visual features
results = model.train(data="combined_dataset.yaml", epochs=20, freeze=10, lr0=0.001)

# Evaluate the model to ensure it retains performance on old and new tasks
metrics = model.val()