مسرد المصطلحات

الدقة المختلطة

عزز كفاءة التعلُّم العميق مع التدريب المختلط الدقة! حقق سرعات أعلى، واستخدام أقل للذاكرة، وتوفير في الطاقة دون التضحية بالدقة.

الدقة المختلطة هي تقنية مستخدمة في التعلم العميق لتسريع تدريب النموذج وتقليل استهلاك الذاكرة. وهي تتضمن استخدام مزيج من التنسيقات العددية ذات الدقة المنخفضة، مثل الفاصلة العائمة 16 بت (FP16)، والتنسيقات ذات الدقة الأعلى، مثل الفاصلة العائمة 32 بت (FP32)، أثناء الحساب. من خلال الاستخدام الاستراتيجي للأرقام ذات الدقة المنخفضة لأجزاء معينة من النموذج، مثل مضاعفة الوزن، والحفاظ على المكونات الحرجة مثل تحديثات الوزن بدقة أعلى، يمكن للتدريب المختلط الدقة أن يسرع الأداء بشكل كبير على وحدات معالجة الرسومات الحديثة دون خسارة كبيرة في دقة النموذج.

كيف تعمل الدقة المختلطة

تتمثل الفكرة الأساسية وراء الدقة المختلطة في الاستفادة من سرعة وكفاءة الذاكرة لأنواع البيانات ذات الدقة المنخفضة. يمكن للأجهزة الحديثة، خاصةً وحدات معالجة الرسومات NVIDIA المزودة بوحدات تينسور كور (Tensor Cores)، إجراء عمليات على أرقام 16 بت أسرع بكثير من الأرقام 32 بت. تتضمن العملية عادةً ثلاث خطوات رئيسية:

  1. التحويل إلى دقة أقل: تُجرى معظم عمليات النموذج، خاصةً عمليات ضرب المصفوفات المكثفة حسابيًا وعمليات الالتفاف، باستخدام العمليات الحسابية بنصف الدقة (FP16). يقلل هذا من بصمة الذاكرة ويسرّع العمليات الحسابية.
  2. الاحتفاظ بنسخة رئيسية من الأوزان: للحفاظ على دقة النموذج وثباته، يتم الاحتفاظ بنسخة رئيسية من أوزان النموذج بصيغة 32 بت ذات الفاصلة العائمة القياسية (FP32). تُستخدم هذه النسخة الرئيسية لتجميع التدرجات وتحديث الأوزان أثناء عملية التدريب.
  3. قياس الخسارة: لمنع التدفق العددي الناقص - حيث تصبح قيم التدرج الصغيرة صفرًا عند تحويلها إلى FP16 - يتم استخدام تقنية تسمى قياس الخسارة. وهي تتضمن ضرب الخسارة بعامل قياس قبل الترجيع العكسي للحفاظ على قيم التدرج ضمن نطاق قابل للتمثيل ل FP16. قبل تحديث الأوزان، يتم تحجيم التدرجات إلى الأسفل.

تحتوي أطر التعلُّم العميق مثل PyTorch و TensorFlow على دعم مدمج للدقة المختلطة التلقائية، مما يجعل من السهل تنفيذها.

التطبيقات والأمثلة

يتم اعتماد الدقة المختلطة على نطاق واسع في تدريب نماذج التعلم الآلي واسعة النطاق (ML) ، حيث تكون الكفاءة أمرًا بالغ الأهمية.

  • تدريب نماذج اللغات الكبيرة (LLMs): تحتوي نماذج مثل GPT-3 و BERT على مليارات المعلمات. يتطلب تدريبها باستخدام FP32 فقط كميات هائلة من ذاكرة وحدة معالجة الرسومات والوقت. تجعل الدقة المختلطة تدريب مثل هذه النماذج الأساسية أمراً ممكناً من خلال تقليل احتياجات الذاكرة بشكل كبير وتسريع العمليات الحسابية. يتيح ذلك للباحثين التكرار بشكل أسرع وبناء نماذج لغوية أكثر قوة.
  • تسريع نماذج الرؤية الحاسوبية: في مجال الرؤية الحاسوبية (CV)، تعمل الدقة المختلطة على تسريع تدريب النماذج المعقدة مثل الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs). بالنسبة لمهام مثل اكتشاف الأجسام وتجزئة الصور، تستفيد نماذج Ultralytics YOLO، بما في ذلك أحدث نماذج Ultralytics YOLO11، من الدقة المختلطة لتحقيق تقارب أسرع. وهذا مفيد بشكل خاص لضبط المعلمات الفائقة والتطوير السريع داخل منصات مثل Ultralytics HUB. يسهل التدريب الأسرع أيضًا إجراء تجارب أسرع على مجموعات البيانات الكبيرة مثل COCO. يمكن أيضًا استخدام الدقة المختلطة أثناء الاستدلال لتسريع نشر النموذج، خاصةً عند التصدير إلى تنسيقات مثل TensorRT، والتي تم تحسينها بشكل كبير للدقة المنخفضة.

المفاهيم ذات الصلة

الدقة المختلطة هي إحدى تقنيات التحسين المتعددة المستخدمة لجعل نماذج التعلم العميق أكثر كفاءة. من المهم تمييزها عن المفاهيم ذات الصلة:

  • التكميم الكمي للنموذج: يقلل التكميم الكمي من حجم النموذج والتكلفة الحسابية عن طريق تحويل أرقام الفاصلة العائمة (مثل FP32 أو FP16) إلى تنسيقات صحيحة ذات بتات أقل، مثل INT8. في حين أن الدقة المختلطة تستخدم تنسيقات الفاصلة العائمة المختلفة أثناء التدريب، يتم تطبيق التكميم الكمي عادةً بعد التدريب(التكميم الكمي بعد التدريب) أو أثناءه(التدريب المدرك للتكميم الكمي) لتحسين الاستدلال، خاصةً على الأجهزة المتطورة.
  • تشذيب النموذج: التقليم هو تقنية تتضمن إزالة الوصلات (الأوزان) الزائدة أو غير المهمة من الشبكة العصبية. وعلى عكس الدقة المختلطة، التي تغير التنسيق العددي للأوزان، فإن التقليم يغير بنية النموذج نفسه لتقليل حجمه وتعقيده. يمكن استخدام هذه التقنيات معًا لتحقيق مكاسب أكبر في الأداء.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة