التحديد الكمي للنموذج
تحسين أداء الذكاء الاصطناعي باستخدام التكميم الكمي للنموذج. تقليل الحجم، وزيادة السرعة، وتحسين كفاءة الطاقة لعمليات النشر في العالم الحقيقي.
تكميم النموذج هو أسلوب قوي لتحسين النموذج يقلل من بصمة الذاكرة والتكلفة الحسابية للشبكة العصبية (NN ) عن طريق تحويل أوزانها وتفعيلاتها من أرقام ذات نقاط عائمة عالية الدقة (مثل 32 بت عائم أو FP32) إلى أنواع بيانات أقل دقة، مثل الأعداد الصحيحة 8 بت (INT8). تجعل هذه العملية النماذج أصغر وأسرع بشكل ملحوظ، مما يتيح نشرها على أجهزة محدودة الموارد مثل الهواتف المحمولة والأنظمة المدمجة. والهدف الأساسي هو تحسين الأداء، خاصةً زمن الاستنتاج، مع الحد الأدنى من التأثير على الدقة التنبؤية للنموذج.
كيف يعمل التكميم الكمي للنموذج
تتضمن عملية التحويل الكمي تعيين النطاق المستمر لقيم الفاصلة العائمة في نموذج مدرّب إلى مجموعة أصغر منفصلة من القيم الصحيحة. يقلل هذا التحويل من عدد البتات المطلوبة لتخزين كل معلمة مما يقلص حجم النموذج الكلي. علاوة على ذلك، تكون العمليات الحسابية باستخدام أعداد صحيحة أقل دقة أسرع بكثير على العديد من وحدات المعالجة المركزية الحديثة ومسرعات الذكاء الاصطناعي المتخصصة مثل وحدات معالجة الرسومات ووحدات المعالجة الحرارية (TPU)، والتي تحتوي على تعليمات مخصصة لحساب الأعداد الصحيحة.
هناك طريقتان أساسيتان لتطبيق التكميم الكمي:
- التكميم اللاحق للتدريب (PTQ): هذا هو أبسط نهج، حيث يتم تحويل نموذج مدرب بالفعل إلى تنسيق أقل دقة. إنها عملية سريعة تنطوي على تحليل توزيع الأوزان والتفعيلات على مجموعة بيانات معايرة صغيرة لتحديد التعيين الأمثل من عائم إلى عدد صحيح.
- التدريب الواعي بالتقدير الكمي (QAT): في هذه الطريقة، يتم تدريب النموذج أو ضبطه بدقة أثناء محاكاة تأثيرات التكميم. يحاكي التمرير الأمامي لعملية التدريب الاستدلال الكمي، مما يسمح للنموذج بالتكيف مع الدقة المنخفضة. وغالبًا ما تعطي QAT دقة أعلى من دقة PTQ لأن النموذج يتعلم تعويض فقدان المعلومات المحتمل أثناء مرحلة التدريب. وتوفر أطر عمل مثل PyTorch و TensorFlow أدوات قوية لتنفيذ QAT.
التطبيقات الواقعية
يُعد التحويل الكمي أمرًا بالغ الأهمية لتشغيل نماذج الرؤية الحاسوبية المتطورة في سيناريوهات العالم الحقيقي، خاصةً على أجهزة الذكاء الاصطناعي Edge.
- تحليل الصور على الجهاز: تستخدم العديد من تطبيقات الهواتف الذكية نماذج كمية للميزات في الوقت الفعلي. على سبيل المثال، يعتمد التطبيق الذي يوفر اكتشافًا مباشرًا للأشياء من خلال الكاميرا، مثل تحديد المنتجات أو المعالم، على نموذج كمي مثل Ultralytics YOLO11 ليعمل بكفاءة على أجهزة الهاتف دون استنزاف البطارية أو الحاجة إلى اتصال سحابي.
- السيارات والروبوتات: في المركبات ذاتية القيادة، يجب أن تعمل نماذج الكشف عن المشاة والحفاظ على حارة السير بزمن استجابة منخفض للغاية. ويسمح تكميم هذه النماذج بتشغيلها على أجهزة متخصصة مثل NVIDIA Jetson أو Google Coral Edge TPUs، مما يضمن اتخاذ القرارات في أجزاء من الثانية، وهو أمر بالغ الأهمية للسلامة.
التكميم الكمي مقابل تقنيات التحسين الأخرى
غالبًا ما يُستخدم تكميم النموذج جنبًا إلى جنب مع طرق التحسين الأخرى ولكنه متميز في نهجه.
- تشذيب النموذج: تزيل هذه التقنية الوصلات (الأوزان) الزائدة أو غير المهمة داخل الشبكة العصبية لتقليل حجمها وتعقيدها. وفي حين أن التقليم يجعل الشبكة أصغر من خلال إزالة أجزاء منها، فإن التكميم يجعل الأجزاء المتبقية أكثر كفاءة من خلال تقليل دقتها العددية. وغالباً ما يتم الجمع بين الاثنين لتحقيق أقصى قدر من التحسين.
- تقطير المعرفة: يتضمن ذلك تدريب نموذج "طالب" أصغر حجمًا على محاكاة نموذج "معلم" أكبر تم تدريبه مسبقًا. الهدف هو نقل معرفة المعلم إلى بنية أكثر إحكامًا. يختلف هذا عن التقطير الكمي، الذي يعدل التمثيل العددي لنموذج موجود بدلاً من تدريب نموذج جديد.
- الدقة المختلطة: تستخدم هذه التقنية مجموعة من الدقة العددية المختلفة (على سبيل المثال، FP16 و FP32) أثناء تدريب النموذج لتسريع العملية وتقليل استخدام الذاكرة. على الرغم من ارتباطها ببعضها البعض، إلا أنها في المقام الأول تحسين تدريبي، في حين أن التكميم يركز عادةً على تحسين النموذج للاستدلال.
الاعتبارات والدعم
على الرغم من أن التكميم مفيد للغاية، إلا أنه من المحتمل أن يؤثر على دقة النموذج. من الضروري إجراء تقييم شامل باستخدام مقاييس الأداء ذات الصلة بعد التكميم للتأكد من أن المفاضلة بين الأداء مقبولة.
تسهّل Ultralytics نشر النماذج المكمّمة من خلال دعم التصدير إلى تنسيقات ملائمة للتكميم. وتشمل هذه التنسيقات ONNX للتوافق الواسع، وOpenVINO للتحسين على أجهزة Intel، وTensorRT للأداء العالي على وحدات معالجة الرسومات NVIDIA. يمكن أن تساعد المنصات مثل Ultralytics HUB في إدارة دورة الحياة بأكملها، بدءاً من التدريب وحتى نشر النماذج المحسّنة. كما تستفيد عمليات التكامل مع أدوات مثل Neural Magic أيضاً من التكميم والتشذيب لتحقيق أداء من فئة GPU على وحدات المعالجة المركزية.