مسرد المصطلحات

التدريب الموزع

تسريع تدريب الذكاء الاصطناعي من خلال التدريب الموزع! تعرّف على كيفية تقليل وقت التدريب، وتوسيع نطاق النماذج، وتحسين الموارد لمشاريع تعلّم الآلة المعقدة.

التدريب الموزع هو تقنية مستخدمة في التعلم الآلي (ML) لتسريع عملية تدريب النموذج من خلال تقسيم عبء العمل الحسابي على معالجات متعددة. يمكن وضع هذه المعالجات، التي غالباً ما تكون وحدات معالجة الرسومات (GPU)، على جهاز واحد أو موزعة على أجهزة متعددة في الشبكة. ومع تزايد حجم مجموعات البيانات وزيادة تعقيد نماذج التعلّم العميق، يمكن أن يستغرق التدريب على معالج واحد وقتاً غير عملي. يعالج التدريب الموزع هذا الاختناق، مما يجعل من الممكن تطوير أحدث نماذج الذكاء الاصطناعي في إطار زمني معقول.

كيف يعمل التدريب الموزع؟

تنقسم استراتيجيات التدريب الموزعة في المقام الأول إلى فئتين، يمكن استخدامهما معًا:

  • توازي البيانات: هذا هو النهج الأكثر شيوعًا. في هذه الاستراتيجية، يتم تكرار النموذج بأكمله على كل عامل (أو وحدة معالجة الرسومات). يتم تقسيم مجموعة بيانات التدريب الرئيسية إلى أجزاء أصغر، ويتم تخصيص جزء لكل عامل. يحسب كل عامل بشكل مستقل الممرات الأمامية والخلفية لمجموعة البيانات الفرعية الخاصة به لتوليد التدرجات. يتم بعد ذلك تجميع هذه التدرجات وحساب متوسطها، عادةً من خلال عملية مثل All-Reduce، ويتم استخدام التدرج الموحد لتحديث معلمات النموذج على جميع العمال. يضمن ذلك بقاء كل نسخة من النموذج متزامنة.
  • توازي النماذج: تُستخدم هذه الاستراتيجية عندما يكون النموذج كبيرًا جدًا بحيث لا يمكن وضعه في ذاكرة وحدة معالجة رسومات واحدة. هنا، يتم تقسيم النموذج نفسه، حيث يتم وضع طبقات أو أقسام مختلفة على عمال مختلفين. يتم تمرير البيانات بين العمال أثناء تدفقها عبر طبقات الشبكة العصبية. هذا النهج أكثر تعقيدًا في التنفيذ بسبب متطلبات الاتصال العالية بين العمال، ولكنه ضروري لتدريب نماذج ضخمة مثل نماذج الأساس. تعتمد البنى مثل مزيج الخبراء (MoE) بشكل كبير على توازي النماذج.

التطبيقات الواقعية

يعد التدريب الموزّع أمراً أساسياً للعديد من اختراقات الذكاء الاصطناعي الحديثة.

  1. تدريب نماذج الرؤية على نطاق واسع: غالبًا ما تستخدم الشركات التي تطور نماذج رؤية حاسوبية متقدمة، مثل Ultralytics YOLO11، مجموعات بيانات ضخمة مثل COCO أو ImageNet. باستخدام توازي البيانات، يمكنهم توزيع التدريب عبر مجموعة من وحدات معالجة الرسومات. وهذا يقلل بشكل كبير من وقت التدريب من أسابيع إلى ساعات أو أيام فقط، مما يتيح التكرار الأسرع، وضبط أكثر شمولاً للمعايير الفائقة، ويؤدي في النهاية إلى نماذج ذات دقة أعلى.
  2. تطوير نماذج لغوية كبيرة (LLMs): سيكون من المستحيل إنشاء نماذج لغوية كبيرة مثل تلك الموجودة في سلسلة GPT بدون تدريب موزع. تحتوي هذه النماذج على مئات المليارات من المعلمات ولا يمكن تدريبها على جهاز واحد. يستخدم الباحثون نهجاً هجيناً يجمع بين توازي النماذج لتقسيم النموذج على وحدات معالجة الرسومات وتوازي البيانات لمعالجة كميات هائلة من البيانات النصية بكفاءة. هذا هو المكون الأساسي لمشاريع مثل Megatron-LM من NVIDIA.

التدريب الموزع مقابل المفاهيم ذات الصلة

من المهم التمييز بين التدريب الموزع والمصطلحات الأخرى ذات الصلة:

  • التعلم الموحد: بينما يتضمن كلاهما أجهزة متعددة، تختلف أهدافهما وقيودهما. عادةً ما يتم إجراء التدريب الموزع في بيئة خاضعة للرقابة مثل مركز بيانات مزود باتصالات عالية السرعة لتسريع التدريب لكيان واحد. في المقابل، يقوم التعلم الموحد بتدريب النماذج على أجهزة لا مركزية (مثل الهواتف الذكية) دون نقل البيانات الخاصة إلى خادم مركزي. ينصب التركيز الأساسي للتعلم الموحد على خصوصية البيانات، في حين أن التركيز الأساسي للتعلم الموزع هو السرعة والتوسع.
  • الذكاء الاصطناعي المتطور: تشير هذه المصطلحات إلى مراحل مختلفة من دورة حياة التعلم الآلي. التدريب الموزع هو جزء من مرحلة التدريب. ويتعلق الذكاء الاصطناعي المتطور بمرحلة النشر، حيث يقوم النموذج المحسّن بتشغيل الاستدلال مباشرةً على جهاز محلي، غالباً ما يكون محدود الموارد، مثل الكاميرا أو الكمبيوتر الموجود على متن السيارة. قد يتم إعداد نموذج مُدرَّب باستخدام طرق موزعة لنشر الذكاء الاصطناعي الحديدي.

الأدوات والتنفيذ

يتم تسهيل تنفيذ التدريب الموزع من خلال أدوات ومنصات مختلفة:

  • أطر عمل التعلم الآلي: الأطر الأساسية مثل باي تورتش و تينسورفلو توفير دعم مدمج لواجهات برمجة تطبيقات التدريب الموزعة، مثل PyTorch DistributedDataParallel و تينسورفلو tf.distribute.Strategy.
  • المكتبات المتخصصة: تقدم مكتبات مثل Horovod، التي طورتها شركة Uber، نهجاً لا يعتمد على إطار العمل للتعلم العميق الموزع.
  • المنصات السحابية: يقدم مزودو الخدمات السحابية الرئيسيون مثل AWS وGoogle Cloud وMicrosoft Azure خدمات مُدارة لتعلّم الآلة والبنية التحتية المُحسّنة للتدريب الموزع على نطاق واسع.
  • منصات MLOps: تعمل المنصات مثل منصة Ultralytics HUB على تبسيط العملية من خلال توفير واجهات لإدارة مجموعات البيانات واختيار النماذج وإطلاق مهام التدريب، بما في ذلك خيارات التدريب السحابي التي تتعامل مع البنية التحتية الموزعة الأساسية. تعتبر ممارسات MLOps الجيدة هي المفتاح لإدارة التدريب الموزع بفعالية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة