Glossaire

CatBoost

Booste tes projets d'apprentissage automatique avec CatBoost, une puissante bibliothèque de boosting de gradient qui excelle dans le traitement des données catégorielles et les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CatBoost est une bibliothèque de gradient boosting sophistiquée et open-source développée par Yandex. Elle a acquis une grande popularité dans la communauté de l'apprentissage machine (ML) en raison de sa capacité exceptionnelle à traiter directement les caractéristiques catégorielles, ce qui permet souvent d'améliorer la précision du modèle et de réduire le besoin d'un prétraitement approfondi des données. Construit sur les principes du gradient boosting, CatBoost emploie des méthodes d'ensemble utilisant des arbres de décision, mais incorpore des techniques uniques pour gérer efficacement les données, en particulier les données structurées ou tabulaires communes à de nombreuses applications commerciales.

Concepts et techniques de base

Le fondement de CatBoost repose sur le renforcement du gradient, où les modèles sont construits de manière séquentielle, chaque nouveau modèle tentant de corriger les erreurs commises par les précédents. CatBoost introduit plusieurs innovations clés :

  • Traitement optimisé des caractéristiques catégorielles : Contrairement à de nombreux algorithmes qui nécessitent une conversion manuelle des caractéristiques catégorielles (comme les noms de villes ou les types de produits) en formats numériques (par exemple, par le biais d'un encodage à une touche), CatBoost met en œuvre de nouvelles stratégies telles que l'amplification ordonnée et les statistiques ciblées. Cela lui permet d'utiliser directement les caractéristiques catégorielles et de capturer efficacement les dépendances complexes sans avoir recours à une ingénierie des caractéristiques poussée.
  • Boosting ordonné : Une technique conçue pour lutter contre les fuites de cible (lorsque les informations de la variable cible influencent par inadvertance le traitement des caractéristiques pendant la formation) et réduire le surajustement. Cela permet d'améliorer la généralisation du modèle à des données inédites.
  • Arbres symétriques : CatBoost utilise des arbres de décision symétriques (ou oblivious), où le même critère de division est appliqué à tout un niveau de l'arbre. Cette structure agit comme une forme de régularisation, accélère l'exécution et aide à prévenir le surajustement.

Distinguer CatBoost des algorithmes similaires

CatBoost est souvent comparé à d'autres bibliothèques de gradient boosting populaires comme XGBoost et LightGBM. Bien que ces trois bibliothèques soient des outils puissants pour les tâches d'apprentissage supervisé sur des données tabulaires, le principal avantage de CatBoost réside dans sa gestion native et avancée des caractéristiques catégorielles. Cela simplifie souvent le pipeline de modélisation, nécessitant moins de réglage manuel des hyperparamètres et de prétraitement par rapport à XGBoost ou LightGBM, en particulier lorsqu'il s'agit d'ensembles de données riches en variables catégorielles. Il est important de se rappeler que ces machines de boosting de gradient excellent principalement avec des données structurées et tabulaires. Pour les tâches impliquant des données non structurées telles que des images ou des vidéos, typiques de la vision par ordinateur (VA), des architectures spécialisées telles que les réseaux neuronaux convolutifs (CNN) et des modèles comme Ultralytics YOLO sont généralement préférés. Ces modèles CV s'attaquent à des tâches telles que la classification d'images, la détection d'objets et la segmentation d'images, souvent gérées et déployées à l'aide de plateformes telles que Ultralytics HUB.

Applications dans le monde réel

Les points forts de CatBoost le rendent adapté à un large éventail d'applications, en particulier lorsque les données comprennent un mélange de types numériques et catégoriels :

  • Détection des fraudes financières : Dans le domaine de la banque et de la finance(AI in finance), CatBoost peut utiliser efficacement des caractéristiques catégorielles telles que le type de transaction, la catégorie du commerçant, la localisation de l'utilisateur et l'heure de la journée pour construire des modèles robustes permettant d'identifier les activités frauduleuses. Sa capacité à traiter ces caractéristiques sans prétraitement poussé est très précieuse. En savoir plus sur la ML dans la détection des fraudes.
  • Systèmes de recommandation pour le commerce électronique : CatBoost peut alimenter les systèmes de recommandation en apprenant à partir des données de comportement des utilisateurs, qui comprennent souvent des informations catégorielles comme les catégories de produits, les marques, les données démographiques de l'utilisateur et l'historique de navigation. Cela permet de fournir des suggestions de produits personnalisées. Explore le Manuel des systèmes de recommandation pour plus de contexte.
  • Prédiction du désabonnement des clients : Les entreprises utilisent CatBoost pour prédire quels clients sont susceptibles d'arrêter d'utiliser leur service, en s'appuyant sur des données catégorielles telles que les plans d'abonnement, les types d'interaction avec le support client et les informations démographiques.
  • Prévisions météorologiques : Les prévisions météorologiques impliquent de nombreuses variables catégorielles (comme les types de nuages ou de précipitations) en plus des données numériques, ce qui fait de CatBoost une option viable.
  • Aide au diagnostic médical : Alors que l 'analyse d'images médicales repose souvent sur des modèles CV, CatBoost peut être utilisé avec des données patient structurées (y compris des champs catégoriels tels que des symptômes ou des codes d'antécédents médicaux) pour faciliter les prédictions de diagnostic.

Outils et intégration

CatBoost est disponible en tant que bibliothèque open-source avec des API conviviales, principalement pour Pythonmais prend également en charge R et les interfaces en ligne de commande. Elle s'intègre bien aux cadres de science des données courants comme Pandas et Scikit-learn, ce qui la rend facile à incorporer dans les pipelines MLOps existants. Les scientifiques des données l'utilisent souvent dans des environnements tels que les carnets Jupyter et sur des plateformes telles que Kaggle pour les concours et la recherche. Bien que CatBoost se distingue des cadres d'apprentissage profond tels que PyTorch et TensorFlow, il représente une alternative puissante pour des types de données et de problèmes spécifiques, notamment dans le domaine de la modélisation prédictive tabulaire. Tu trouveras une documentation détaillée et des tutoriels sur le site officiel de CatBoost. Pour avoir un aperçu de l'évaluation des performances des modèles, reporte-toi aux guides sur les mesures de performanceYOLO , qui couvrent des concepts applicables à l'ensemble de la modélisation ML.

Tout lire