ما هي عملية تقطير مجموعة البيانات (dataset distillation)؟ نظرة عامة سريعة
تعرف على كيفية تسريع تقطير مجموعة البيانات (dataset distillation) لتدريب النماذج وتقليل تكاليف الحوسبة عن طريق استبدال مجموعات البيانات الكبيرة بمجموعة صغيرة ومحسنة من العينات الاصطناعية.

قد يبدو تدريب النماذج الجزء الأكثر استهلاكاً للوقت في عمل عالم البيانات. لكن معظم وقتهم، غالباً ما يتراوح بين 60% إلى 80%، يذهب فعلياً إلى تجهيز البيانات: جمعها، تنظيفها، وتنظيمها للنمذجة. مع نمو مجموعات البيانات، يزداد وقت الإعداد هذا أيضاً، مما يبطئ التجارب ويجعل التكرار أكثر صعوبة.
لمعالجة هذه المشكلة، أمضى الباحثون سنوات في البحث عن طرق لتبسيط التدريب. تهدف أساليب مثل البيانات الاصطناعية، وضغط مجموعة البيانات، وطرق التحسين الأفضل إلى تقليل تكلفة واحتكاك العمل مع مجموعات البيانات واسعة النطاق وتسريع سير عمل تعلم الآلة.
السؤال الرئيسي الذي يطرحه هذا هو ما إذا كان بإمكاننا تقليص مجموعة البيانات بشكل كبير مع تحقيق نفس الأداء للتدريب على البيانات الكاملة. تقطير مجموعة البيانات هو إجابة واعدة على ذلك.
إنه ينشئ نسخة مضغوطة من مجموعة بيانات تدريب كبيرة مع الحفاظ على الأنماط الأساسية التي يحتاجها النموذج للتعلم بفعالية. يوفر مساراً لتدريب أسرع، واحتياجات حوسبة أقل، وتجريب أكثر كفاءة. يمكنك التفكير في الأمر كـ "ورقة غش" دراسية للنموذج، وهي مجموعة صغيرة من أمثلة البيانات الاصطناعية المصممة لتعليم نفس الأنماط الأساسية الموجودة في مجموعة البيانات الكاملة.
في هذه المقالة، سنستكشف كيفية عمل تقطير مجموعة البيانات وكيف يدعم تعلم الآلة والتعلم العميق القابل للتطوير عبر تطبيقات العالم الحقيقي. لنبدأ!
Link to this sectionفهم تقطير مجموعة البيانات#
تقطير مجموعة البيانات هو عملية يتم فيها تكثيف مجموعة بيانات تدريب كبيرة إلى مجموعة بيانات أصغر بكثير لا تزال تعلم النموذج نفس المعلومات تقريباً الموجودة في مجموعة البيانات الأصلية. يشير العديد من الباحثين أيضاً إلى هذه العملية باسم "تكثيف مجموعة البيانات" لأن الهدف هو التقاط الأنماط الأساسية التي تظهر عبر مجموعة البيانات الكاملة.
تختلف مجموعة البيانات المقطرة عن البيانات الاصطناعية التي يتم إنشاؤها عشوائياً أو مجرد اختيار مجموعة فرعية أصغر من الصور الحقيقية. إنها ليست مجموعة بيانات مزيفة عشوائية أو نسخة مقطوعة من الأصل.
بدلاً من ذلك، يتم تحسينها عمداً لالتقاط أهم الأنماط. خلال هذه العملية، يتم تعديل وتحسين كل بكسل وميزة بحيث يتعلم أي شبكة عصبية يتم تدريبها على البيانات المقطرة كما لو تم تدريبها على مجموعة البيانات بأكملها تقريباً.
ظهرت هذه الفكرة لأول مرة في ورقة بحثية على arXiv عام 2018 من قبل تونغتشو وانغ، وجون-يان تشو، وأنطونيو تورالبا، وأليكسي أ. إفروس. استخدمت الاختبارات المبكرة مجموعات بيانات بسيطة مثل MNIST وCIFAR-10، مما سهل إظهار أن بضع عينات مقطرة يمكن أن تحل محل آلاف الصور الحقيقية.

شكل 1. استخدام تقطير مجموعة البيانات لبيانات الصور (المصدر)
منذ ذلك الحين، دفعت الأعمال اللاحقة تقطير مجموعة البيانات إلى أبعد من ذلك، بما في ذلك الأساليب المنشورة في مؤتمرات ICML وICLR التي تجعل التكثيف أكثر كفاءة وقابلية للتطوير.
Link to this sectionأهمية تقطير مجموعة البيانات#
يحسن تقطير مجموعة البيانات من كفاءة التدريب ويجعل دورات التطوير أسرع. من خلال تقليل كمية البيانات التي يحتاج النموذج للتعلم منها، فإنه يقلل من المتطلبات الحسابية.
هذا مفيد بشكل خاص للتعلم المستمر، حيث يتم تحديث النماذج بمرور الوقت، والبحث عن البنية العصبية، حيث يتم اختبار العديد من تصميمات النماذج، والتدريب على الحافة، حيث تعمل النماذج على أجهزة صغيرة ذات ذاكرة وقوة محدودة. وبشكل عام، تجعل هذه المزايا تقطير مجموعة البيانات خياراً رائعاً للتهيئة السريعة، والضبط الدقيق السريع، وبناء النماذج الأولية عبر العديد من مسارات عمل تعلم الآلة.
Link to this sectionنظرة عامة على كيفية عمل تقطير مجموعة البيانات#
ينشئ تقطير مجموعة البيانات عينات تدريب اصطناعية، أو مولدة صناعياً. تساعد هذه العينات النموذج على التعلم بطريقة تشبه إلى حد كبير التدريب على بيانات حقيقية. يعمل ذلك من خلال تتبع ثلاثة عوامل رئيسية أثناء التدريب العادي.
الأول هو دالة الخسارة، وهي درجة خطأ النموذج التي تظهر مدى خطأ تنبؤاته. والثاني هو معلمات النموذج، وهي الأوزان الداخلية للشبكة التي يتم تحديثها أثناء التعلم.
والثالث هو مسار التدريب، الذي يصف كيف يتغير الخطأ والأوزان خطوة بخطوة بمرور الوقت. يتم بعد ذلك تحسين العينات الاصطناعية بحيث، عندما يتدرب النموذج عليها، ينخفض خطؤه وتتحدث أوزانه بنفس الطريقة التي كانت ستحدث بها مع مجموعة البيانات الكاملة.
Link to this sectionنظرة تفصيلية على تقطير مجموعة البيانات#
إليك نظرة فاحصة على كيفية عمل عملية تقطير مجموعة البيانات:
- الخطوة 1 - تهيئة وحدات البكسل الاصطناعية: تبدأ العملية بـ صور اصطناعية تعمل كمدخلات قابلة للتعلم. في البداية، تحتوي هذه الصور على القليل من الهيكلية وتبدو كصفحات فارغة. بمرور الوقت، يتم تحسينها لتصبح أمثلة غنية بالمعلومات.
- الخطوة 2 - التحسين باستخدام مطابقة التدرج والانتشار العكسي: أثناء تدريب النموذج على هذه الصور الاصطناعية، فإنه ينتج تدرجات تشير إلى كيفية تغير كل بكسل ليتناسب بشكل أفضل مع سلوك التدريب للبيانات الحقيقية. الانتشار العكسي هو الطريقة التي تستخدمها الشبكة للتعلم من الأخطاء. فهو يرسل الخطأ للخلف عبر النموذج لمعرفة البكسلات والأوزان التي تسببت فيه، ثم يحدثها قليلاً. باستخدام تلك التدرجات، يقوم الانتشار العكسي بتعديل الصور الاصطناعية خطوة بخطوة بحيث تصبح أكثر إفادة للتدريب.
- الخطوة 3 - مطابقة السلوك عبر خطوات التدريب: تطابق الطريقة أيضاً مسارات التدريب، مما يعني التغييرات خطوة بخطوة التي يمر بها النموذج أثناء التعلم. وهذا يضمن أن مجموعة البيانات المقطرة توجه النموذج عبر مسار تعليمي مشابه لما سيتبعه مع مجموعة البيانات الكاملة.
- الخطوة 4 - التحقق والتعميم: أخيراً، يتم تقييم مجموعة البيانات المقطرة على بيانات تحقق حقيقية لمعرفة مدى جودة أداء النموذج المدرب على أمثلة جديدة. يتحقق هذا من أن البيانات الاصطناعية تعلم أنماطاً واسعة وعملية بدلاً من دفع النموذج إلى حفظ عينات محددة.

شكل 2. نظرة على تقطير مجموعة البيانات (المصدر)
Link to this sectionمنهجيات تقطير مجموعة البيانات الرئيسية#
جميع طرق تقطير مجموعة البيانات مبنية على نفس الفكرة الأساسية، حتى لو استخدمت خوارزميات مختلفة للوصول إلى ذلك. تندرج معظم الأساليب تحت ثلاث فئات: مطابقة الأداء، مطابقة التوزيع، ومطابقة المعلمات.
بعد ذلك، دعونا نلقي نظرة على كل منها ونرى كيف تعمل.
Link to this sectionمطابقة الأداء#
تركز مطابقة الأداء في تقطير مجموعة البيانات على إنشاء مجموعة تدريب صغيرة ومحسنة تسمح للنموذج بالوصول إلى نفس الدقة تقريباً كما لو تم تدريبه على مجموعة البيانات الكاملة الأصلية. بدلاً من اختيار مجموعة فرعية عشوائية، يتم تحسين العينات المقطرة بحيث ينتهي المطاف بالنموذج المدرب عليها بتنبؤات مماثلة، وسلوك خسارة مشابه أثناء التدريب، أو دقة نهائية مماثلة لنموذج تم تدريبه على مجموعة البيانات الأصلية.
التعلم الفائق هو طريقة شائعة تستخدم لتحسين هذه العملية. يتم تحديث مجموعة البيانات المقطرة من خلال حلقات تدريب متكررة، لذا تصبح فعالة عبر العديد من المواقف المحتملة.
خلال هذه الحلقات، تحاكي الطريقة كيفية تعلم نموذج الطالب من العينات المقطرة الحالية، وتتحقق من مدى جودة أداء ذلك الطالب على بيانات حقيقية، ثم تعدل العينات المقطرة لتكون معلمين أفضل. بمرور الوقت، تتعلم المجموعة المقطرة دعم التعلم السريع والتعميم القوي، حتى عندما يبدأ نموذج الطالب من أوزان أولية مختلفة أو يستخدم بنية مختلفة. هذا يجعل مجموعة البيانات المقطرة أكثر موثوقية وغير مرتبطة بجولة تدريب واحدة.

شكل 3. عملية التعلم الفائق (المصدر)
Link to this sectionتقنيات مطابقة التوزيع#
وفي الوقت نفسه، تقوم مطابقة التوزيع بإنشاء بيانات اصطناعية تطابق الأنماط الإحصائية لمجموعة البيانات الحقيقية. بدلاً من التركيز فقط على الدقة النهائية للنموذج، تركز هذه الطريقة على الميزات الداخلية التي تولدها الشبكة العصبية أثناء التعلم.
بعد ذلك، دعونا نلقي نظرة على التقنيتين اللتين تقودان مطابقة التوزيع.
Link to this sectionمطابقة التوزيع أحادية الطبقة#
تركز مطابقة التوزيع أحادية الطبقة على طبقة واحدة من الشبكة العصبية وتقارن الميزات التي تنتجها للبيانات الحقيقية مقابل الاصطناعية. تلك الميزات، التي تسمى أيضاً التنشيطات، تلتقط ما تعلمه النموذج في تلك النقطة من الشبكة.
من خلال جعل البيانات الاصطناعية تنتج تنشيطات مماثلة، تشجع الطريقة مجموعة البيانات المقطرة على عكس نفس الأنماط المهمة الموجودة في مجموعة البيانات الأصلية. في الممارسة العملية، يتم تحديث العينات الاصطناعية بشكل متكرر حتى تتطابق التنشيطات في تلك الطبقة المختارة بشكل وثيق مع تلك الناتجة عن الصور الحقيقية.
هذه الطريقة بسيطة نسبياً لأنها توازن مستوى واحداً فقط من التمثيل في كل مرة. يمكن أن تعمل بشكل جيد بشكل خاص على مجموعات بيانات أصغر أو مهام لا تتطلب مطابقة تسلسلات ميزات عميقة ومتعددة المراحل. من خلال مواءمة مساحة ميزة واحدة بوضوح، توفر المطابقة أحادية الطبقة إشارة مستقرة وذات مغزى للتعلم باستخدام مجموعة البيانات المقطرة.
Link to this sectionمطابقة التوزيع متعددة الطبقات#
تبني مطابقة التوزيع متعددة الطبقات على فكرة مقارنة البيانات الحقيقية والاصطناعية من خلال القيام بذلك في عدة طبقات من الشبكة العصبية بدلاً من طبقة واحدة فقط. تلتقط الطبقات المختلفة أنواعاً مختلفة من المعلومات، من الحواف والقوام البسيطة في الطبقات الأولى إلى الأشكال والأنماط الأكثر تعقيداً في الطبقات العميقة.
من خلال مطابقة الميزات عبر هذه الطبقات، يتم دفع مجموعة البيانات المقطرة لتعكس ما يتعلمه النموذج على مستويات متعددة. نظراً لأنها توازن الميزات في جميع أنحاء الشبكة، تساعد هذه الطريقة البيانات الاصطناعية على الحفاظ على إشارات أكثر ثراءً يعتمد عليها النموذج لتمييز الفئات عن بعضها البعض.
هذا مفيد بشكل خاص في رؤية الحاسوب، أي المهام التي تتعلم فيها النماذج فهم الصور ومقاطع الفيديو، لأن الأنماط المفيدة تنتشر عبر العديد من الطبقات. عندما تتطابق توزيعات الميزات جيداً في عدة أعماق، تعمل مجموعة البيانات المقطرة كبديل أقوى وأكثر موثوقية لبيانات التدريب الأصلية.
Link to this sectionطرق مطابقة المعلمات#
فئة رئيسية أخرى في تقطير مجموعة البيانات هي مطابقة المعلمات. بدلاً من مطابقة الدقة أو توزيعات الميزات، فهي تطابق كيفية تغير أوزان النموذج أثناء التدريب. من خلال جعل التدريب على مجموعة البيانات المقطرة ينتج تحديثات معلمات مماثلة للتدريب على البيانات الحقيقية، يتبع النموذج مسار تعلم متطابقاً تقريباً.
سنستعرض طريقتي مطابقة المعلمات الرئيسيتين بعد ذلك.
Link to this sectionمطابقة الخطوة الواحدة#
تقارن مطابقة الخطوة الواحدة ما يحدث لأوزان النموذج بعد خطوة تدريب واحدة فقط على بيانات حقيقية. يتم بعد ذلك ضبط مجموعة البيانات المقطرة بحيث ينتج النموذج الذي يتم تدريبه عليها لخطوة واحدة تحديثاً مشابهاً جداً للأوزان. نظراً لأنها تركز فقط على هذا التحديث الفردي، فإن الطريقة مباشرة وسريعة التشغيل.
العيب هو أن خطوة واحدة لا تعكس عملية التعلم الكاملة، خاصة بالنسبة للمهام الأكثر صعوبة حيث يحتاج النموذج إلى العديد من التحديثات لبناء ميزات أكثر ثراءً. لهذا السبب، تميل مطابقة الخطوة الواحدة إلى العمل بشكل أفضل في المشكلات الأبسط أو مجموعات البيانات الأصغر حيث يمكن التقاط الأنماط المفيدة بسرعة.
Link to this sectionمطابقة المعلمات متعددة الخطوات#
على النقيض من ذلك، تنظر مطابقة المعلمات متعددة الخطوات إلى كيفية تغير أوزان النموذج على مدار عدة خطوات تدريب، وليس خطوة واحدة فقط. هذا التسلسل من التحديثات هو مسار تدريب النموذج.
يتم بناء مجموعة البيانات المقطرة بحيث عندما يتدرب النموذج على العينات الاصطناعية، يتبع مساره بشكل وثيق المسار الذي سيسلكه مع البيانات الحقيقية. من خلال مطابقة فترة أطول من التعلم، تلتقط المجموعة المقطرة المزيد من الهيكلية في عملية التدريب الأصلية.
نظراً لأنها تعكس كيفية تطور التعلم بمرور الوقت، تعمل المطابقة متعددة الخطوات عادةً بشكل أفضل لمجموعات البيانات الأكبر أو الأكثر تعقيداً حيث تحتاج النماذج إلى العديد من التحديثات لالتقاط أنماط مفيدة. يتطلب الأمر المزيد من الحوسبة نظراً لأنه يجب تتبع خطوات متعددة، ولكنه غالباً ما ينتج مجموعات بيانات مقطرة تعمم بشكل أفضل وتعطي أداءً أفضل من مطابقة الخطوة الواحدة.
Link to this sectionكيف تعمل عملية توليد وتحسين مجموعة البيانات الاصطناعية#
مع فهم أفضل لأساليب التقطير الرئيسية، يمكننا الآن النظر في كيفية صنع البيانات الاصطناعية. في تقطير مجموعة البيانات، يتم تحسين العينات الاصطناعية لالتقاط أهم إشارة تعلم، بحيث يمكن لمجموعة صغيرة أن تحل محل مجموعة بيانات أكبر بكثير.
بعد ذلك، سنرى كيف يتم توليد وتقييم هذه البيانات المقطرة.
Link to this sectionإنشاء وتقييم الصور المقطرة#
أثناء تقطير مجموعة البيانات، يتم تحديث وحدات البكسل الاصطناعية على مدار العديد من خطوات التدريب. تتعلم الشبكة العصبية من الصور الاصطناعية الحالية وترسل تعليقات قائمة على التدرج، والتي تظهر كيفية تغير كل بكسل لتتناسب بشكل أفضل مع الأنماط الموجودة في مجموعة البيانات الحقيقية.
يعمل هذا لأن العملية قابلة للاشتقاق (مما يعني أن كل خطوة سلسة ولها تدرجات محددة جيداً، لذا تؤدي تغييرات البكسل الصغيرة إلى تغييرات يمكن التنبؤ بها في الخسارة)، مما يسمح للنموذج بتعديل البيانات الاصطناعية بسلاسة أثناء نزول التدرج.
مع استمرار التحسين، تبدأ الصور الاصطناعية في تشكيل بنية ذات معنى، بما في ذلك الأشكال والقوام التي يتعرف عليها النموذج. غالباً ما تُستخدم هذه الصور الاصطناعية المكررة لمهام تصنيف الصور لأنها تلتقط الإشارات البصرية الرئيسية التي يحتاجها المصنف للتعلم.
يتم تقييم مجموعات البيانات المقطرة من خلال تدريب النماذج عليها ومقارنة النتائج بالنماذج المدربة على بيانات حقيقية. يقيس الباحثون دقة التحقق ويتحققون مما إذا كانت المجموعة الاصطناعية تحافظ على الميزات التمييزية (الأنماط أو الإشارات التي يعتمد عليها النموذج لتمييز فئة عن أخرى) اللازمة لفصل الفئات. كما يختبرون الاستقرار والتعميم عبر جولات أو إعدادات نموذج مختلفة للتأكد من أن البيانات المقطرة لا تؤدي إلى الإفراط في التخصيص.
Link to this sectionتطبيقات العالم الحقيقي لتقطير البيانات#
بعد ذلك، سنلقي نظرة فاحصة على أمثلة توضح كيف تسرع مجموعات البيانات المقطرة التدريب وتقلل من تكاليف الحوسبة مع الحفاظ على أداء قوي، حتى عندما تكون البيانات محدودة أو متخصصة للغاية.
Link to this sectionاستخدام تقطير مجموعة البيانات لتطبيقات رؤية الحاسوب#
عندما يتعلق الأمر برؤية الحاسوب، فإن الهدف هو تدريب النماذج على فهم البيانات المرئية مثل الصور ومقاطع الفيديو. تتعلم هذه النماذج أنماطاً مثل الحواف، والقوام، والأشكال، والأجسام، ثم تستخدم تلك الأنماط لمهام مثل تصنيف الصور، أو اكتشاف الأجسام، أو التجزئة. نظراً لأن مشاكل الرؤية غالباً ما تحتوي على تباين هائل في الإضاءة والخلفيات ووجهات النظر، عادةً ما تحتاج أنظمة رؤية الحاسوب إلى مجموعات بيانات كبيرة للتعميم بشكل جيد، مما يجعل التدريب مكلفاً وبطيئاً.

شكل 4. مثال على تقطير مجموعة البيانات (المصدر)
عندما يتعلق الأمر بحالات استخدام تصنيف الصور مثل الفحوصات الطبية، أو مراقبة الحياة البرية، أو اكتشاف عيوب المصانع، غالباً ما تواجه النماذج مقايضة صعبة بين الدقة وتكلفة التدريب. عادةً ما تتضمن هذه المهام مجموعات بيانات ضخمة.
يمكن لتقطير مجموعة البيانات ضغط مجموعة التدريب الأصلية إلى عدد صغير من الصور الاصطناعية التي لا تزال تحتوي على أهم الإشارات المرئية للمصنف. في معايير كبيرة مثل ImageNet، تبين أن المجموعات المقطرة التي تستخدم فقط حوالي 4.2% من الأصل تحافظ على دقة تصنيف قوية. هذا يعني أن وكيل اصطناعي صغير يمكنه أن يحل محل ملايين العينات الحقيقية بتكلفة حوسبة أقل بكثير.
Link to this sectionالبحث عن البنية العصبية#
البحث عن البنية العصبية، أو NAS، هو تقنية تستكشف تلقائياً العديد من تصميمات الشبكات العصبية الممكنة للعثور على التصميم الذي يعمل بشكل أفضل لمهمة ما. نظراً لأن NAS يتعين عليه تدريب وتقييم عدد كبير من نماذج المرشحين، فإن تشغيله على مجموعات بيانات كاملة يمكن أن يكون بطيئاً ومكثفاً جداً من الناحية الحسابية.
يساعد تقطير مجموعة البيانات من خلال إنشاء مجموعة تدريب اصطناعية صغيرة لا تزال تحتوي على إشارة التعلم الرئيسية للبيانات الأصلية، بحيث يمكن اختبار كل بنية مرشحة بشكل أسرع بكثير. هذا يتيح لـ NAS مقارنة التصميمات بكفاءة مع الحفاظ على موثوقية تصنيفات البنيات الجيدة مقابل السيئة، مما يقلل من تكلفة البحث دون التضحية بالكثير من جودة النموذج النهائية.
Link to this sectionالتعلم المستمر والنشر على الحافة#
أنظمة التعلم المستمر، أي النماذج التي تستمر في التحديث مع وصول بيانات جديدة بدلاً من تدريبها مرة واحدة، تحتاج إلى تحديثات سريعة وفعالة في الذاكرة. تواجه أجهزة الحافة مثل الكاميرات والهواتف وأجهزة الاستشعار قيوداً مماثلة لأن لديها ميزانيات محدودة للحوسبة والتخزين.
يساعد تقطير مجموعة البيانات في كلتا الحالتين عن طريق ضغط مجموعة تدريب كبيرة في واحدة اصطناعية صغيرة، بحيث يمكن للنماذج التكيف أو إعادة التدريب باستخدام مجموعة إعادة تشغيل صغيرة بدلاً من مجموعة البيانات الكاملة. على سبيل المثال، أظهر عمل التعلم الفائق القائم على النواة أن 10 عينات مقطرة فقط يمكن أن تحقق دقة تزيد عن 64% على CIFAR-10، وهو معيار قياسي لتصنيف الصور. نظراً لأن مجموعة إعادة التشغيل مضغوطة للغاية، تصبح التحديثات أسرع وأكثر عملية بكثير، خاصة عندما تحتاج النماذج إلى التحديث بشكل متكرر.
يمكن لتقطير مجموعة البيانات أيضاً أن يعمل جنباً إلى جنب مع تقطير المعرفة للنماذج اللغوية الكبيرة. يمكن لمجموعة بيانات مقطرة صغيرة الحفاظ على أهم إشارات المهمة من نموذج المعلم، بحيث يمكن تدريب أو تحديث نموذج طالب مضغوط بشكل أكثر كفاءة دون فقدان الكثير من الأداء. نظراً لأن مجموعات البيانات هذه صغيرة، فهي مفيدة بشكل خاص للاستخدام على الحافة أو على الجهاز، حيث يكون التخزين والحوسبة محدودين ولكنك لا تزال تريد بقاء النموذج دقيقاً بعد التحديثات.
Link to this sectionإيجابيات وسلبيات تقطير البيانات#
فيما يلي بعض فوائد استخدام تقطير مجموعة البيانات:
- رائع للتجارب السريعة. يمكنك اختبار بنيات جديدة، أو خسائر، أو معلمات فائقة دون إعادة التدريب على مجموعة بيانات ضخمة في كل مرة.
- ميزة محتملة للخصوصية. يمكن أن تكون مشاركة العينات الاصطناعية المقطرة أكثر أماناً من مشاركة نقاط بيانات المستخدم الحقيقية، حيث لا يتم كشف الأمثلة الأولية بشكل مباشر.
- غالباً ما تكون أقوى من اختيار مجموعة فرعية بسيطة. بدلاً من مجرد اختيار أمثلة، تقوم عملية التقطير بتحسينها بنشاط لتكون غنية بالمعلومات إلى أقصى حد.
على الرغم من أن تقطير مجموعة البيانات يوفر العديد من المزايا، إليك بعض القيود التي يجب وضعها في الاعتبار:
- الإفراط في التخصيص: غالباً ما تعمل البيانات المقطرة بشكل أفضل مع البنية المستخدمة أثناء التقطير وقد تنتقل بشكل سيئ إلى نماذج مختلفة جداً.
- حساسة للمعلمات الفائقة. يمكن أن تعتمد النتائج كثيراً على عوامل مثل معدل التعلم، أو التهيئة، أو عدد خطوات التقطير.
- أصعب في التوسع إلى تعقيد العالم الحقيقي. الطرق التي تعمل بشكل جيد على المعايير قد تفقد دقتها على مجموعات بيانات كبيرة أو فوضوية أو عالية الدقة.
Link to this sectionأبرز النقاط#
يجعل تقطير مجموعة البيانات من الممكن لمجموعة صغيرة من العينات الاصطناعية تعليم نموذج بفعالية تقريباً مثل مجموعة بيانات كاملة. وهذا يجعل تعلم الآلة أسرع وأكثر كفاءة وأسهل في التوسع. مع نمو النماذج واحتياجها إلى المزيد من البيانات، توفر مجموعات البيانات المقطرة طريقة عملية لتقليل تكاليف الحوسبة دون التضحية بالدقة.
انضم إلى مجتمعنا وتحقق من مستودع GitHub الخاص بنا لاكتشاف المزيد حول الذكاء الاصطناعي. إذا كنت تتطلع إلى بناء مشروع رؤية ذكاء اصطناعي خاص بك، تحقق من خيارات الترخيص لدينا. استكشف المزيد حول تطبيقات مثل الذكاء الاصطناعي في الرعاية الصحية ورؤية الذكاء الاصطناعي في التجزئة من خلال زيارة صفحات الحلول الخاصة بنا.






