حسّن أداء الذكاء الاصطناعي باستخدام تكميم النموذج. قلل الحجم، وعزز السرعة، وحسّن كفاءة الطاقة لعمليات النشر في العالم الحقيقي.
تكميم النموذج هو تقنية تحويلية في في التعلم الآلي المصمم لتقليل التكاليف الحسابية وتكاليف الذاكرة لتشغيل الشبكات العصبية. عن طريق تحويل معلمات النموذج النموذج - وتحديداً الأوزان والتفعيلات - من أرقام ذات فاصلة عائمة عالية الدقة (عادةً 32 بت، والمعروفة باسم FP32) إلى تنسيقات ذات دقة أقل مثل الأعداد الصحيحة 8 بت (INT8)، يمكن للمطورين تقليص حجم ملف النموذج. هذه العملية ضرورية لتمكين النشر الفعال للنماذج على الأجهزة ذات موارد محدودة، مما يضمن إمكانية تشغيل قدرات الذكاء الاصطناعي المتطورة بسلاسة على كل شيء من الهواتف الذكية إلى أجهزة الاستشعار الصناعية.
تتضمَّن الآلية الأساسية للتحويل الكمي تعيين نطاق كبير من القيم المتصلة إلى مجموعة أصغر من القيم المتقطعة من القيم المنفصلة. في نموذج التعلم العميق النموذجي، يتم تخزين المعلمات كأرقام ذات فاصلة عائمة 32 بت للحفاظ على دقة عالية أثناء مرحلة التدريب. ومع ذلك، أثناء الاستدلال - المرحلة التي يقوم فيها النموذج بعمل تنبؤات - فإن هذا المستوى من الدقة غالباً ما يكون غير ضروري.
يعمل التكميم على ضغط هذه القيم، مما يقلل من عرض النطاق الترددي للذاكرة المطلوب لجلب أوزان النماذج وتسريع العمليات الحسابية العمليات الحسابية. الأجهزة الحديثة، بما في ذلك وحدات المعالجة المركزية والمسرعات المتخصصة المتخصصة مثل وحدات معالجة الرسوميات، غالبًا ما تحتوي على مجموعات تعليمات مخصصة لحساب الأعداد الصحيحة التي تكون أسرع وأكثر كفاءة في استخدام الطاقة من نظيراتها ذات الفاصلة العائمة نظيراتها من الفاصلة العائمة. يساعد هذا التحسين على تقليل وقت الاستجابة للاستدلال، مما يوفر تجربة مستخدم أسرع في تطبيقات الوقت الحقيقي.
هناك طريقتان أساسيتان لتطبيق هذا التحسين، تخدم كل منهما مراحل مختلفة من التطوير دورة حياة التطوير:
يُعد التحويل الكمي حجر الزاوية في الذكاء الاصطناعي المتطور، مما يتيح تنفيذ المهام المعقدة محليًا على الأجهزة دون الاعتماد على الاتصال السحابي.
يعمل إطار Ultralytics على تبسيط عملية تصدير النماذج إلى تنسيقات ملائمة للتقدير الكمي. يوضح المثال التالي مثال يوضح كيفية تصدير نموذج YOLO11 إلى TFLite مع تمكين التكميم INT8. تتعامل هذه العملية تلقائيًا مع المعايرة باستخدام البيانات المحددة.
from ultralytics import YOLO
# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")
# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")
من المفيد التمييز بين التكميم عن استراتيجيات عن استراتيجيات تحسين النموذج الأخرى, لأنها غالبًا ما تُستخدم جنبًا إلى جنب ولكنها تعمل بشكل مختلف:
مع زيادة تخصص مسرّعات الأجهزة، تستمر أهمية التكميم في النمو. تهدف Ultralytics المستقبلية المستقبلي، مثل YOLO26 القادم، إلى تعزيز الكفاءة إلى أبعد من ذلك من خلال تصميم معماريات قوية أصلاً في التكميم القوي، مما يضمن أن رؤية حاسوبية عالية الأداء تظل متاحة حتى على أصغر الأجهزة المتطورة.
للتوافق الأوسع، غالبًا ما يتم نشر النماذج الكمية باستخدام معايير قابلة للتشغيل البيني مثل ONNX أو محركات الاستدلال المحسّنة المحسّنة مثل TensorRT و OpenVINO.