مسرد المصطلحات

تقطير المعرفة

اكتشف كيف تعمل تقنية تقطير المعرفة على ضغط نماذج الذكاء الاصطناعي من أجل استدلال أسرع ودقة محسّنة وكفاءة نشر الأجهزة المتطورة.

تقطير المعرفة هي تقنية تحسين النموذج وضغطه في التعلم الآلي (ML) حيث يتم تدريب نموذج "طالب" صغير الحجم لإعادة إنتاج أداء نموذج "معلم" أكبر وأكثر تعقيدًا. الفكرة الأساسية هي نقل "المعرفة" من نموذج المعلم القوي ولكن المرهق إلى نموذج الطالب الأصغر والأكثر كفاءة. يسمح ذلك بنشر نماذج عالية الدقة في البيئات المحدودة الموارد، مثل الأجهزة المتطورة أو الهواتف المحمولة، دون انخفاض كبير في الأداء. تعمل هذه العملية على سد الفجوة بين النماذج البحثية الضخمة والمتطورة والنماذج العملية في العالم الحقيقي.

كيف يعمل تقطير المعرفة

يتم أولاً تدريب نموذج المعلم، وهو عادةً شبكة عصبية كبيرة أو مجموعة من النماذج، على مجموعة بيانات كبيرة لتحقيق دقة عالية. أثناء عملية التقطير، يتعلم نموذج الطالب من خلال محاولة محاكاة مخرجات المعلم. وبدلاً من التعلم فقط من التسميات الحقيقية الأساسية في بيانات التدريب، يتم تدريب الطالب أيضًا على التوزيعات الاحتمالية الكاملة للمعلم لكل تنبؤ، والتي غالبًا ما تسمى "التسميات اللينة". توفر هذه التسميات الناعمة معلومات أكثر ثراءً من "التسميات الثابتة" (الإجابات الصحيحة)، حيث تكشف عن كيفية "تفكير" نموذج المعلم وتعميمه. على سبيل المثال، قد يتنبأ نموذج المعلم بأن صورة قطة هي "قطة" بثقة 90%، ولكنه قد يخصص أيضًا احتمالات صغيرة ل "كلب" (5%) و"ثعلب" (2%). تساعد هذه المعلومات الدقيقة نموذج الطالب على التعلم بشكل أكثر فعالية، وغالبًا ما تؤدي إلى تعميم أفضل مما لو تم تدريبه على التسميات الثابتة وحدها. هذه التقنية هي جزء أساسي من مجموعة أدوات التعلم العميق لإنشاء نماذج فعالة.

التطبيقات الواقعية

يُستخدم تقطير المعرفة على نطاق واسع في مختلف المجالات لإتاحة الوصول إلى الذكاء الاصطناعي القوي.

  1. معالجة اللغات الطبيعية (NLP): النماذج اللغوية الكبيرة (LLMs) مثل BERT قوية للغاية ولكنها كبيرة جدًا بالنسبة للعديد من التطبيقات. ويُعد DistilBERT مثالاً شهيراً على نسخة مختصرة من BERT. وهي أصغر بنسبة 40% وأسرع بنسبة 60% مع الاحتفاظ بأكثر من 97% من أداء BERT، مما يجعلها مناسبة لمهام مثل تحليل المشاعر والإجابة عن الأسئلة على أجهزة المستهلكين.
  2. الرؤية الحاسوبية على أجهزة الحافة: في مجال الرؤية الحاسوبية، يمكن تقطير نموذج كبير وعالي الدقة لتصنيف الصور أو اكتشاف الأجسام إلى نموذج أصغر. يسمح ذلك بتشغيل مهام الرؤية المعقدة، مثل الكشف عن الأشخاص في الوقت الحقيقي لكاميرا أمنية ذكية، مباشرةً على أجهزة ذات طاقة حاسوبية محدودة، مثل Raspberry Pi، مما يحسن السرعة وخصوصية البيانات. يمكن أن تكون نماذج Ultralytics YOLO مثل YOLO11 جزءًا من تدفقات العمل هذه، حيث يمكن أن تفيد المعرفة من النماذج الأكبر في تدريب الإصدارات الأصغر القابلة للنشر.

تقطير المعرفة مقابل تقنيات التحسين الأخرى

يرتبط تقطير المعرفة بتقنيات تحسين النماذج الأخرى ولكنه يختلف عنها. إن فهم الاختلافات هو المفتاح لاختيار النهج المناسب لمشروعك، والذي يمكن إدارته ونشره من خلال منصات مثل Ultralytics HUB.

  • تشذيب النموذج: تتضمن هذه التقنية إزالة الوصلات (الأوزان) الزائدة أو الأقل أهمية من شبكة مدربة بالفعل لتقليل حجمها. على النقيض من ذلك، يقوم التقطير بتدريب شبكة جديدة تمامًا وأصغر حجمًا من الصفر لمحاكاة المعلم.
  • التكميم الكمي للنموذج: يقلل التكميم الكمي من الدقة العددية لأوزان النموذج (على سبيل المثال، من 32 بت عائم إلى 8 بت أعداد صحيحة). يؤدي ذلك إلى تقليص النموذج ويمكنه تسريع الحوسبة على الأجهزة المتوافقة. يغير تمثيل النموذج الحالي، بينما يؤدي التقطير إلى إنشاء نموذج جديد. غالبًا ما يُستخدم التكميم بالاقتران مع التقطير أو التقليم، ويمكن تصدير النماذج إلى تنسيقات مثل ONNX أو تحسينها بمحركات مثل TensorRT.
  • نقل التعلّم: يتضمن هذا إعادة استخدام أجزاء من نموذج مُدرَّب مسبقًا (عادةً ما يكون عموده الفقري لاستخراج السمات) ثم ضبطه على مجموعة بيانات جديدة أصغر. الهدف هو تكييف نموذج موجود مع مهمة جديدة. من ناحية أخرى، يهدف التقطير، من ناحية أخرى، إلى نقل السلوك التنبؤي للمعلم إلى نموذج الطالب، والذي يمكن أن يكون له بنية مختلفة تمامًا.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة