عزّز مشاريع تعلم الآلة الخاصة بك باستخدام CatBoost، وهي مكتبة قوية لتعزيز التدرج تتفوق في معالجة البيانات الفئوية والتطبيقات الواقعية.
CatBoost، وهي اختصار لعبارة "التعزيز الفئوي"، هي خوارزمية عالية الأداء ومفتوحة المصدر مبنية على إطار عمل التعزيز المتدرج. تم تطويرها بواسطة Yandex، وهي مصممة خصيصًا مصممة خصيصاً للتفوق في التعامل مع الميزات الفئوية، وهي متغيرات تحتوي على قيم التسمية بدلاً من أرقامًا. في حين أن العديد من نماذج التعلم الآلي (ML) تتطلب معالجة واسعة النطاق لمعالجة البيانات مسبقًا لتحويل هذه التسميات إلى تنسيقات رقمية، فإن CatBoost يتعامل معها بشكل أصلي أثناء التدريب. هذه الإمكانية تجعله الخيار الأفضل للعمل مع البيانات المجدولة، مما يسمح لعلماء البيانات ببناء نماذج قوية قوي للتصنيف، والانحدار، ومهام التصنيف بكفاءة ودقة أكبر.
يعمل CatBoost على تحسين أشجار القرار المعززة بالتدرج التقليدي (GBDT) من خلال إدخال العديد من الابتكارات الخوارزمية التي تعزز الاستقرار والقوة التنبؤية.
في مشهد التعزيز المتدرج، غالبًا ما تتم مقارنة CatBoost ب XGBoost و و LightGBM. في حين أن الطرق الثلاثة قوية طرق تجميعية قوية، إلا أنها تختلف في نهجها في بناء الشجرة ومعالجة البيانات.
يتم اعتماد CatBoost على نطاق واسع في مختلف القطاعات التي تنتشر فيها البيانات المهيكلة.
يعد دمج CatBoost في مشروع ما أمرًا بسيطًا ومباشرًا بفضل واجهة برمجة التطبيقات المتوافقة مع Scikit-learn. فيما يلي مثال موجز موجز لكيفية تدريب مصنف على بيانات تحتوي على ميزات فئوية.
from catboost import CatBoostClassifier
# Sample data: Features (some categorical) and Target labels
train_data = [["Summer", 25], ["Winter", 5], ["Summer", 30], ["Winter", 2]]
train_labels = [1, 0, 1, 0] # 1: Go outside, 0: Stay inside
# Initialize the model specifying the index of categorical features
model = CatBoostClassifier(iterations=10, depth=2, learning_rate=0.1, verbose=False)
# Train the model directly on the data
model.fit(train_data, train_labels, cat_features=[0])
# Make a prediction on new data
prediction = model.predict([["Summer", 28]])
print(f"Prediction (1=Go, 0=Stay): {prediction}")
في حين أن CatBoost يهيمن على عالم البيانات المجدولة، فإن خطوط أنابيب الذكاء الاصطناعي الحديثة غالبًا ما تتطلب نماذج متعددة الوسائط تجمع بين البيانات المنظمة مع مدخلات غير منظمة مثل الصور. على سبيل المثال، قد يستخدم نظام تقييم العقارات نظام CatBoost لتحليل ميزات العقار (الرمز البريدي، المساحة المربعة) و Ultralytics YOLO11 لتحليل صور العقارات عن طريق الرؤية الحاسوبية. يتيح فهم كلتا الأداتين للمطوّرين بإنشاء حلول شاملة تستفيد من مجموعة كاملة من البيانات المتاحة.