مسرد المصطلحات

الانتشار العكسي

تعرّف على كيفية تدريب الشبكات العصبية بالترحيل العكسي وتقليل معدلات الخطأ وتشغيل تطبيقات الذكاء الاصطناعي مثل التعرف على الصور والبرمجة اللغوية العصبية بكفاءة.

يعد التكاثر الخلفي، وهو اختصار لعبارة "الانتشار العكسي للأخطاء"، خوارزمية أساسية لتدريب الشبكات العصبية الاصطناعية (NNs)، خاصةً في مجال التعلم العميق (DL). وهي بمثابة الآلية الأساسية التي تمكن النماذج من التعلم من أخطائها أثناء عملية تدريب النموذج. وتحسب الخوارزمية بكفاءة مساهمة كل معلمة (مثل أوزان النموذج والتحيزات) داخل الشبكة في الخطأ الكلي الملاحظ في تنبؤات النموذج. ثم يتم استخدام معلومات التدرج هذه من خلال خوارزميات التحسين لضبط المعلمات بشكل متكرر، مما يؤدي إلى تحسين أداء النموذج ودقته بشكل تدريجي.

كيف يعمل الانتشار العكسي

وعادةً ما تتبع عملية الانتشار العكسي مسارًا أماميًا أوليًا حيث تتدفق بيانات الإدخال عبر الشبكة لتوليد تنبؤ. بعد مقارنة التنبؤ بالقيمة المستهدفة الفعلية باستخدام دالة الخسارة، يتم تنفيذ خوارزمية الترحيل العكسي على مرحلتين رئيسيتين:

  1. تمرير إلى الأمام: يتم إدخال البيانات المدخلة إلى الشبكة العصبونية، وتمر عبر طبقات من الخلايا العصبونية، حيث تطبق كل منها أوزانها وانحيازاتها ودالة تنشيط (مثل ReLU أو Sigmoid)، حتى يتم إنشاء تنبؤ بالمخرجات.
  2. التمرير العكسي: تحسب الخوارزمية الخطأ (الفرق بين التنبؤ والقيمة الحقيقية) باستخدام دالة الخسارة المختارة. ثم تنشر إشارة الخطأ هذه إلى الخلف عبر الشبكة، طبقة تلو الأخرى. وباستخدام قاعدة السلسلة من حساب التفاضل والتكامل، تقوم بحساب تدرج دالة الخسارة بالنسبة لكل وزن وانحياز في الشبكة. يمثل هذا التدرج مدى تأثير تغيير بسيط في كل معلمة على الخطأ الكلي. للحصول على فهم مرئي، تقدم مصادر مثل "حساب التفاضل والتكامل على الرسوم البيانية الحاسوبية" تفسيرات مفيدة.

وبمجرد حساب التدرجات، تستخدم خوارزمية التحسين، مثل نزول التدرج أو المتغيرات مثل نزول التدرج العشوائي (SGD) أو مُحسِّن آدم، هذه التدرجات لتحديث أوزان الشبكة وانحيازاتها. والهدف من ذلك هو تقليل دالة الخسارة إلى الحد الأدنى، وتعليم الشبكة بشكل فعال لإجراء تنبؤات أفضل على مدى الحقب المتتالية.

الأهمية في التعلم العميق

لا يمكن الاستغناء عن الانتثار الخلفي في التعلّم العميق الحديث. فكفاءتها في حساب التدرجات تجعل تدريب البنى العميقة والمعقدة للغاية ممكنًا من الناحية الحسابية. ويشمل ذلك نماذج مثل الشبكات العصبية التلافيفية (CNNs)، التي تتفوق في مهام الرؤية الحاسوبية، والشبكات العصبية المتكررة (RNNs)، التي تُستخدم عادةً للبيانات المتسلسلة كما هو الحال في معالجة اللغات الطبيعية (NLP). بدون الترحيل العكسي، لن يكون تعديل ملايين المعلمات في النماذج الكبيرة مثل GPT-4 أو تلك التي تم تدريبها على مجموعات بيانات ضخمة مثل ImageNet أمرًا عمليًا. فهو يمكّن النماذج من تعلم الميزات المعقدة والتمثيلات الهرمية تلقائيًا من البيانات، مما يدعم العديد من التطورات في مجال الذكاء الاصطناعي منذ انتشاره، كما هو مفصل في الموارد التي تغطي تاريخ التعلم العميق. تعتمد أطر العمل مثل PyTorch و TensorFlow بشكل كبير على محركات التمايز التلقائي التي تنفذ الانتثار الخلفي.

التكاثر الخلفي مقابل خوارزميات التحسين

من المهم التمييز بين الترحيل العكسي وخوارزميات التحسين. الترحيل العكسي هو الطريقة المستخدمة لحساب التدرجات (مساهمة الخطأ لكل معلمة). من ناحية أخرى، خوارزميات التحسين هي الاستراتيجيات التي تستخدم هذه التدرجات المحسوبة لتحديث معلمات النموذج (الأوزان والتحيزات) من أجل تقليل الخسارة. يوفر الانتشار الخلفي اتجاه التحسين، بينما يحدد المُحسِّن حجم الخطوة(معدل التعلم) وطريقة التحديث.

التطبيقات الواقعية

يُستخدم الانتثار الخلفي ضمنيًا كلما خضع نموذج التعلم العميق للتدريب. فيما يلي مثالان ملموسان:

  1. الكشف عن الأجسام باستخدام Ultralytics YOLO : عند تدريب نموذج Ultralytics YOLO (مثل YOLOv8 أو YOLO11) لاكتشاف الأجسام على مجموعة بيانات مثل COCO، يتم استخدام الانتثار العكسي في كل تكرار تدريب. بعد أن يتنبأ النموذج بالمربعات والفئات المحددة، يتم حساب الخسارة (على سبيل المثال، مقارنة المربعات المتوقعة بالحقيقة الأرضية). يحسب الترحيل الخلفي تدرجات جميع الأوزان في جميع أنحاء العمود الفقري للنموذج ورأس الكشف. يستخدم المُحسِّن بعد ذلك هذه التدرجات لضبط الأوزان، مما يحسّن قدرة النموذج على تحديد موقع الأجسام وتصنيفها بدقة. يمكن للمستخدمين الاستفادة من من منصات مثل Ultralytics HUB لإدارة عملية التدريب هذه، والاستفادة من تطبيقات الترحيل العكسي الفعالة. وهذا أمر بالغ الأهمية للتطبيقات التي تتراوح بين المركبات ذاتية القيادة وأنظمة الأمن.
  2. نماذج معالجة اللغات الطبيعية: يتم تدريب النماذج اللغوية الكبيرة (LLMs) مثل نماذج BERT و GPT باستخدام التكاثر العكسي. على سبيل المثال، في مهمة تحليل المشاعر، يتنبأ النموذج بالمشاعر (إيجابية، سلبية، محايدة) لنص معين. ينتج عن الفرق بين المشاعر المتوقعة والتسمية الفعلية قيمة خطأ. يحسب الانتشار الخلفي مقدار مساهمة كل معلمة في الشبكة الواسعة في هذا الخطأ. ثم تقوم خوارزميات التحسين بتحديث هذه المعلمات، مما يمكّن النموذج من فهم الفروق اللغوية والسياق والمشاعر بشكل أفضل على مدار التدريب. وتستكشف مجموعات البحث الأكاديمي مثل مجموعة ستانفورد للبرمجة اللغوية العصبية هذه التقنيات وتصقلها باستمرار.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة