تقطير المعرفة
اكتشف كيف يضغط تقطير المعرفة نماذج الذكاء الاصطناعي للحصول على استدلال أسرع، ودقة محسنة، وكفاءة نشر الأجهزة الطرفية.
تقنية تقطير المعرفة هي إحدى تقنيات تحسين النموذج وضغطه في مجال التعلم الآلي (ML)، حيث يتم تدريب نموذج "طالب" مضغوط لإعادة إنتاج أداء نموذج "معلم" أكبر وأكثر تعقيدًا. الفكرة الأساسية هي نقل "المعرفة" من نموذج المعلم القوي ولكن المرهق إلى نموذج الطالب الأصغر والأكثر كفاءة. يتيح ذلك نشر نماذج عالية الدقة في بيئات محدودة الموارد، مثل الأجهزة الطرفية أو الهواتف المحمولة، دون انخفاض كبير في الأداء. تسد هذه العملية الفجوة بين نماذج البحث الضخمة والمتطورة وأساليب نشر النماذج العملية في العالم الحقيقي.
كيف يعمل تقطير المعرفة؟
يتم أولاً تدريب نموذج المعلم، وهو عادةً شبكة عصبية كبيرة أو مجموعة من النماذج، على مجموعة بيانات كبيرة لتحقيق دقة عالية. خلال عملية التقطير، يتعلم نموذج الطالب من خلال محاولة تقليد مخرجات المعلم. بدلاً من التعلم فقط من التسميات الحقيقية في بيانات التدريب، يتم أيضًا تدريب الطالب على توزيعات الاحتمالية الكاملة للمعلم لكل تنبؤ، والتي غالبًا ما تسمى "التسميات اللينة". توفر هذه التسميات اللينة معلومات أكثر ثراءً من "التسميات الصلبة" (الإجابات الصحيحة)، لأنها تكشف كيف "يفكر" نموذج المعلم ويعمم. على سبيل المثال، قد يتنبأ نموذج المعلم بأن صورة قطة هي "قطة" بثقة 90٪، ولكنه يعين أيضًا احتمالات صغيرة لـ "كلب" (5٪) و "ثعلب" (2٪). تساعد هذه المعلومات الدقيقة نموذج الطالب على التعلم بشكل أكثر فعالية، مما يؤدي غالبًا إلى تعميم أفضل مما لو تم تدريبه على التسميات الصلبة وحدها. هذه التقنية هي جزء أساسي من مجموعة أدوات التعلم العميق لإنشاء نماذج فعالة.
تطبيقات واقعية
تستخدم تقنية تقطير المعرفة على نطاق واسع في مختلف المجالات لجعل الذكاء الاصطناعي القوي في متناول الجميع.
- معالجة اللغة الطبيعية (NLP): نماذج اللغة الكبيرة (LLMs) مثل BERT قوية بشكل لا يصدق ولكنها كبيرة جدًا بالنسبة للعديد من التطبيقات. DistilBERT هو مثال شهير لنسخة مقطرة من BERT. إنه أصغر بنسبة 40٪ وأسرع بنسبة 60٪ مع الاحتفاظ بأكثر من 97٪ من أداء BERT، مما يجعله مناسبًا لمهام مثل تحليل المشاعر (sentiment analysis) و الإجابة على الأسئلة على الأجهزة الاستهلاكية.
- الرؤية الحاسوبية على الأجهزة الطرفية: في الرؤية الحاسوبية، يمكن تقطير نموذج كبير وعالي الدقة لتصنيف الصور أو اكتشاف الكائنات إلى نموذج أصغر. يتيح ذلك تشغيل مهام الرؤية المعقدة، مثل اكتشاف الأشخاص في الوقت الفعلي لكاميرا أمان ذكية، مباشرة على الأجهزة ذات القدرة الحسابية المحدودة، مثل Raspberry Pi، مما يحسن السرعة و خصوصية البيانات. يمكن أن تكون نماذج Ultralytics YOLO مثل YOLO11 جزءًا من مهام سير العمل هذه، حيث يمكن للمعرفة من النماذج الأكبر حجمًا أن تفيد تدريب الإصدارات الأصغر حجمًا والقابلة للنشر.
تقطير المعرفة مقابل تقنيات التحسين الأخرى
تعتبر تقنية تقطير المعرفة مرتبطة بتقنيات تحسين النماذج الأخرى ولكنها متميزة عنها. إن فهم الاختلافات أمر أساسي لاختيار النهج الصحيح لمشروعك، والذي يمكن إدارته ونشره من خلال منصات مثل Ultralytics HUB.
- Model Pruning: تتضمن هذه التقنية إزالة الاتصالات الزائدة أو الأقل أهمية (الأوزان) من شبكة مُدرَّبة بالفعل لتقليل حجمها. في المقابل، يقوم التقطير بتدريب شبكة جديدة أصغر حجمًا تمامًا من البداية لتقليد النموذج الأصلي.
- Model Quantization: يقلل التكميم من الدقة العددية لأوزان النموذج (على سبيل المثال، من أعداد عشرية 32 بت إلى أعداد صحيحة 8 بت). يؤدي هذا إلى تقليص النموذج ويمكن أن يسرع الحساب على الأجهزة المتوافقة. إنه يغير تمثيل النموذج الحالي، في حين أن التقطير ينشئ نموذجًا جديدًا. غالبًا ما يستخدم التكميم بالاشتراك مع التقطير أو التقليم، ويمكن تصدير النماذج إلى تنسيقات مثل ONNX أو تحسينها باستخدام محركات مثل TensorRT.
- التعلم بالنقل: يتضمن ذلك إعادة استخدام أجزاء من نموذج مدرب مسبقًا (عادةً العمود الفقري لاستخراج الميزات) ثم الضبط الدقيق على مجموعة بيانات جديدة أصغر. الهدف هو تكييف نموذج موجود مع مهمة جديدة. من ناحية أخرى، يهدف التقطير إلى نقل السلوك التنبئي للمعلم إلى نموذج الطالب، والذي يمكن أن يكون له بنية مختلفة تمامًا.