XGBoost، وهي اختصار لعبارة Extreme Gradient Boosting، هي خوارزمية قوية ومفتوحة المصدر للتعلم الآلي (ML) مفتوحة المصدر ومُستخدمة على نطاق واسع، وهي مصممة للسرعة والأداء. وهي تنتمي إلى عائلة أطر تعزيز التدرج، وهي عبارة عن أساليب تجميعية تقوم ببناء النماذج بالتتابع، مع نماذج جديدة تصحح أخطاء النماذج السابقة. يعمل XGBoost على تحسين التعزيز التدرجي التقليدي من خلال دمج تقنيات التنظيم المتقدمة (مثل التنظيم L1 و L2) لمنع الإفراط في التكييف وتحسين الموارد الحاسوبية من أجل تدريب وتوقع أسرع. وهذا يجعلها فعالة للغاية في كل من مهام التصنيف والانحدار، خاصةً مع البيانات المنظمة أو المجدولة.
فهم التعزيز التدرجي
يعد XGBoost في جوهره تطبيقًا محسنًا لتقنية تعزيز التدرج، وهي تقنية طورها جيروم فريدمان بشكل كبير. يقوم تعزيز التدرج ببناء مجموعة من المتعلمين الضعفاء، عادةً أشجار القرار، بطريقة مرحلية. وتحاول كل شجرة جديدة التنبؤ بالأخطاء المتبقية (الفرق بين القيم الفعلية والمتوقعة) التي قامت بها مجموعة الأشجار السابقة. يعمل XGBoost على تحسين هذه العملية من خلال العديد من الابتكارات الرئيسية التي تحسن بشكل كبير من كفاءة ودقة النموذج.
الميزات والتحسينات الرئيسية
يقدم XGBoost العديد من التحسينات على خوارزميات تعزيز التدرج القياسية:
- التنظيم: يدمج مصطلحي التنظيم L1 (لاسو) و L2 (ريدج) في دالة الهدف، مما يساعد على منع الإفراط في التعميم ويحسن تعميم النموذج.
- المعالجة المتوازية: صُمم XGBoost لتحقيق الكفاءة، ويمكنه الاستفادة من وحدات معالجة الرسومات متعددة النواة لإجراء عمليات حسابية أسرع أثناء التدريب.
- التعامل مع القيم المفقودة: يحتوي على روتين مدمج للتعامل مع قيم البيانات المفقودة، وتعلم أفضل استراتيجية للتضمين من البيانات نفسها.
- تشذيب الشجرة: يستخدم تقنيات أكثر تقدمًا لتشذيب الشجرة (مثل التشذيب بالعمق أولًا باستخدام معلمة "العمق الأقصى" والتشذيب اللاحق بناءً على الكسب) مقارنةً بالتعزيز القياسي للتدرج.
- التحقق التبادلي المدمج: يسمح للمستخدمين بإجراء التحقق التبادلي في كل تكرار لعملية التعزيز، مما يسهل الحصول على العدد الأمثل لجولات التعزيز.
- الوعي بذاكرة التخزين المؤقت: يحسن استخدام الأجهزة من خلال إدراك التسلسل الهرمي لذاكرة التخزين المؤقت.
- المرونة: يدعم وظائف الهدف والتقييم المخصصة، مما يوفر القدرة على التكيف لمختلف المهام التي تتجاوز التصنيف والانحدار القياسي. يساعد ذلك في ضبط المعلمات الفائقة بفعالية.
مقارنة مع الخوارزميات الأخرى
في حين أن XGBoost فعّال للغاية في البيانات المجدولة، إلا أنه يختلف عن الخوارزميات الشائعة الأخرى:
- LightGBM: إطار آخر لتعزيز التدرج معروف بسرعته، خاصةً على مجموعات البيانات الكبيرة جدًا. يستخدم LightGBM استراتيجية فريدة من نوعها لنمو الشجرة على مستوى الأوراق، والتي يمكن أن تكون أسرع ولكن في بعض الأحيان تكون أكثر عرضة للإفراط في التركيب على مجموعات البيانات الأصغر مقارنةً بنمو XGBoost على مستوى المستوى.
- CatBoost: يتفوق بشكل خاص مع مجموعات البيانات التي تحتوي على العديد من السمات الفئوية بسبب معالجته المتطورة لهذه المتغيرات. وغالبًا ما يتطلب ضبطًا أقل للمعامل الفائق للبيانات الفئوية مقارنةً ب XGBoost.
- نماذجالتعلم العميق (DL): خوارزميات مثل الشبكات العصبية التلافيفية (CNNs) أو نماذج مثل Ultralytics YOLO مصممة في المقام الأول للبيانات غير المهيكلة مثل الصور أو النصوص، وتتفوق في مهام مثل الرؤية الحاسوبية (CV)(اكتشاف الأجسام، وتجزئة الصور). وعلى العكس من ذلك، فإن XGBoost عادةً ما تكون متفوقة في مجموعات البيانات المنظمة والمجدولة التي توجد عادةً في تحليلات الأعمال.
التطبيقات الواقعية
أداء XGBoost ومتانته يجعلانه مناسبًا لمجموعة واسعة من تطبيقات النمذجة التنبؤية:
- الخدمات المالية: تُستخدم على نطاق واسع لتقييم مخاطر الائتمان، والكشف عن الاحتيال، واستراتيجيات التداول الخوارزمية. على سبيل المثال، تستخدم البنوك XGBoost لبناء نماذج تتنبأ باحتمالية التخلف عن سداد القروض بناءً على بيانات طلبات العملاء. اطلع على المزيد حول الذكاء الاصطناعي في مجال التمويل.
- البيع بالتجزئة والتجارة الإلكترونية: تطبق في التنبؤ بسلوك العملاء، وتحليل سلوك العملاء، والتنبؤ بالمبيعات، وبناء محركات التوصيات. على سبيل المثال، قد يستخدم بائع التجزئة عبر الإنترنت XGBoost للتنبؤ بالعملاء الذين من المحتمل أن يستجيبوا لحملة تسويقية معينة.
- الرعاية الصحية: يُستخدم في التنبؤ بنتائج المرضى ومخاطر الأمراض بناءً على البيانات السريرية وتحسين عمليات المستشفيات. اقرأ المزيد عن الذكاء الاصطناعي في مجال الرعاية الصحية.
- التصنيع: يُستخدم للصيانة التنبؤية (التنبؤ بفشل المعدات)، وتحليل مراقبة الجودة، وتحسين عمليات الإنتاج. استكشف الذكاء الاصطناعي في التصنيع.
- علم البيانات التنافسي: XGBoost هي خوارزمية مفضلة في مسابقات علوم البيانات مثل تلك التي تُستضاف على Kaggle نظرًا لدقتها وكفاءتها العالية.
لا يزال XGBoost أداةً فعّالة وفعّالة للغاية في مجال التعلّم الآلي، وهو مفضل لسرعته ودقته وقدرته على التعامل مع مجموعات البيانات المجدولة المعقدة بفعالية. يستمر تطويرها من خلال مكتبة XGBoost الرسمية، وتتكامل بشكل جيد مع مكتبات تعلّم الآلة الشائعة مثل Scikit-learn ومنصات مثل Ultralytics HUB لإدارة دورة حياة تعلّم الآلة من البداية إلى النهاية.