LightGBM، وهو اختصار ل Light Gradient Boosting Machine، هو إطار عمل لتعزيز التدرج عالي الأداء ومفتوح المصدر تم تطويره بواسطة Microsoft Research. يُستخدم على نطاق واسع في التعلم الآلي (ML) لمهام مثل التصنيف والانحدار والترتيب، خاصةً عند التعامل مع مجموعات البيانات الكبيرة(البيانات الضخمة). يشتهر LightGBM بسرعته وكفاءته، وغالبًا ما يحقق دقة عالية مع استهلاك ذاكرة أقل مقارنةً بخوارزميات التعزيز الأخرى. وهي تعتمد على المفاهيم الموجودة في خوارزميات شجرة القرار وهي جزء من عائلة طرق التعزيز المتدرج، حيث تقوم ببناء مجموعة من المتعلمين الضعفاء بشكل متكرر لإنشاء نموذج تنبؤي قوي.
كيفية تحقيق LightGBM للسرعة والكفاءة
يستخدم LightGBM العديد من التقنيات المبتكرة لتحسين الأداء والتعامل مع البيانات واسعة النطاق بفعالية:
- أخذ العينات أحادية الجانب القائمة على التدرج (GOSS): تركّز هذه الطريقة على مثيلات البيانات ذات التدرجات الأكبر (تلك التي لا يمكن التنبؤ بها حاليًا بشكل جيد) مع إسقاط المثيلات ذات التدرجات الصغيرة بشكل عشوائي. يحافظ هذا على الدقة مع تقليل كمية البيانات اللازمة لتدريب كل شجرة بشكل كبير.
- تجميع الميزات الحصرية (EFB): تعمل هذه التقنية على تجميع الميزات الحصرية المتبادلة (الميزات التي نادرًا ما تأخذ قيمًا غير صفرية في وقت واحد) معًا، مما يقلل بشكل فعال من عدد الميزات(تقليل الأبعاد) دون فقدان معلومات مهمة. يؤدي ذلك إلى تسريع التدريب من خلال تقليل تعقيد العثور على أفضل نقاط التقسيم.
- نمو الأشجار على شكل أوراق: على عكس النمو التقليدي القائم على المستوى التقليدي الذي يوسع الأشجار طبقة تلو الأخرى، فإن LightGBM ينمي الأشجار ورقة تلو الأخرى. تختار الورقة ذات الحد الأقصى من الخسارة للتقسيم، مما يؤدي إلى تقارب أسرع وأشجار أكثر تعقيدًا، على الرغم من أنه قد يؤدي أحيانًا إلى الإفراط في التركيب إذا لم يكن مقيدًا بشكل صحيح. يمكنك معرفة المزيد عن النمو على مستوى الورقة في الوثائق الرسمية.
تجعل هذه التحسينات، جنبًا إلى جنب مع التطبيقات الفعالة التي تستفيد من تقنيات مثل الخوارزميات القائمة على الرسم البياني، LightGBM سريعة بشكل استثنائي وفعالة من حيث الذاكرة، مما يتيح التدريب على مجموعات بيانات ضخمة قد تكون باهظة بالنسبة للأطر الأخرى التي تستخدم خوارزميات التحسين القياسية.
الميزات الرئيسية لـ LightGBM
يوفر LightGBM العديد من المزايا لممارسي تعلّم الآلة المتعددة:
- السرعة والكفاءة: سرعة تدريب أسرع بكثير واستخدام أقل للذاكرة مقارنةً بالعديد من أطر التعزيز الأخرى.
- دقة عالية: غالبًا ما تقدم أحدث النتائج في مهام البيانات المجدولة.
- دعمGPU : يدعم التدريب على وحدات معالجة الرسومات لمزيد من التسريع.
- التدريب المتوازي والموزع: قادر على التعامل مع مجموعات بيانات كبيرة للغاية من خلال التدريب الموزع عبر أجهزة متعددة.
- معالجة الميزات الفئوية: يمكن التعامل مع الميزات الفئوية مباشرة، مما يلغي في كثير من الأحيان الحاجة إلى هندسة ميزات واسعة النطاق مثل الترميز أحادي الدرجة.
- التنظيم: يتضمن معلمات للتسوية (مثل L1 و L2) لمنع الإفراط في الملاءمة.
- معالجة البيانات على نطاق واسع: مصممة للعمل بكفاءة مع مجموعات البيانات الكبيرة جدًا التي قد لا تتسع لها الذاكرة.
- ضبط المعلمة الفائقة: يوفر العديد من المعلمات التي يمكن ضبطها من خلال ضبط المعلمة الفائقة لتحسين الأداء لمهام محددة.
راجع وثائق LightGBM الرسمية ومستودع GitHub الخاص به للاطلاع على الاستخدام المفصل والميزات المتقدمة. تظل المعالجة المسبقة المناسبة للبيانات مهمة للحصول على أفضل النتائج.
مقارنة مع أطر التعزيز الأخرى
غالبًا ما يُقارن LightGBM بمكتبات تعزيز التدرج الشائعة الأخرى مثل XGBoost و CatBoost. تتضمن الاختلافات الرئيسية ما يلي:
- السرعة: يُعتبر LightGBM بشكل عام أسرع من XGBoost، خاصةً في مجموعات البيانات الكبيرة، وذلك بسبب تقنيتي GOSS و EFB. يمكن لسرعة CatBoost أن تكون تنافس سرعة CatBoost، خاصةً مع الميزات الفئوية.
- استخدام الذاكرة: عادةً ما يستخدم LightGBM ذاكرة أقل من XGBoost.
- الميزات الفئوية: يحتوي CatBoost على معالجة مدمجة متطورة للميزات الفئوية، وغالبًا ما يتفوق على LightGBM و XGBoost (الذي يتطلب معالجة مسبقة مثل الترميز أحادي الدرجة) في مجموعات البيانات التي تحتوي على العديد من المتغيرات الفئوية. يوفر LightGBM معالجة مباشرة ولكنه قد يكون أقل قوة من نهج CatBoost.
- نمو الشجرة: يستخدم LightGBM النمو على مستوى الأوراق، بينما يستخدم XGBoost و CatBoost عادةً النمو على مستوى الأوراق (على الرغم من أن XGBoost يوفر أيضًا خيار النمو على مستوى الأوراق).
- المعلمات الفائقة: لكل مكتبة مجموعتها الخاصة من المعلمات الفائقة التي تتطلب الضبط. تتطلب CatBoost غالبًا ضبطًا أقل للحصول على نتائج جيدة.
يعتمد الاختيار بينهما غالبًا على خصائص مجموعة البيانات المحددة (الحجم وأنواع الميزات) ومتطلبات المشروع. تقدم موارد مثل مقالة المقارنة هذه مزيدًا من الأفكار.
التطبيقات الواقعية
نقاط قوة LightGBM تجعله مناسبًا لمختلف التطبيقات التي تتضمن بيانات منظمة أو مجدولة:
- الكشف عن الاحتيال: في القطاع المالي(الذكاء الاصطناعي في القطاع المالي)، يمكن لـ LightGBM معالجة ملايين سجلات المعاملات بسرعة(النمذجة التنبؤية) لتحديد الأنماط الدقيقة التي تشير إلى نشاط احتيالي في الوقت الفعلي تقريباً. سرعته حاسمة للتدخل في الوقت المناسب. تستفيد أنظمة الكشف عن الاحتيال بشكل كبير من كفاءتها.
- الصيانة التنبؤية: يستخدم المصنعون(الذكاء الاصطناعي في التصنيع) نموذج LightGBM لتحليل بيانات أجهزة الاستشعار من الآلات. من خلال التدريب على البيانات التاريخية لأداء المعدات والأعطال، يمكن للنموذج التنبؤ بالأعطال المحتملة قبل حدوثها، مما يتيح الصيانة الاستباقية وتقليل وقت التعطل. تعرف على المزيد حول مفاهيم الصيانة التنبؤية.
تشمل التطبيقات الشائعة الأخرى التنبؤ باضطراب العملاء، وأنظمة التوصيات، والتنبؤ بنسبة النقر إلى الظهور، وتسجيل الائتمان، والتنبؤ بالطلب. وقد جعل أداؤها من هذه التطبيقات خياراً شائعاً في مسابقات علوم البيانات، مثل تلك التي تُستضاف على Kaggle.
بينما تتفوق LightGBM مع البيانات المجدولة لمهام التعلم الآلي الكلاسيكية، إلا أنها تختلف عن نماذج مثل Ultralytics YOLO. نماذج YOLO عبارة عن بنيات متخصصة للتعلم العميق (DL) مصممة لمهام الرؤية الحاسوبية (CV) مثل اكتشاف الأجسام وتصنيف الصور وتجزئة الصور على بيانات الصور أو الفيديو غير المنظمة. تعمل منصات مثل Ultralytics HUB على تسهيل تطوير ونشر نماذج السيرة الذاتية هذه. يظل LightGBM أداة حيوية لمشاكل البيانات المهيكلة حيث تكون السرعة والكفاءة في مجموعات البيانات الكبيرة ذات أهمية قصوى. يمكنك الاطلاع على الورقة البحثية الأصلية لـ LightGBM لمزيد من التفاصيل التقنية.