用語集

キャットブースト

CatBoostは、カテゴリカル・データの処理や実世界のアプリケーションに優れた強力な勾配ブースティング・ライブラリです。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

CatBoostはYandexによって開発された、洗練されたオープンソースの勾配ブースティング・ライブラリです。CatBoostは、カテゴリカルな特徴を直接扱うことができる卓越した能力により、機械学習(ML)コミュニティで大きな人気を博しており、多くの場合、モデルの精度を向上させ、大規模なデータ前処理の必要性を減らしている。CatBoostは勾配ブースティングの原理に基づいており、決定木を使用したアンサンブル手法を採用していますが、特に多くのビジネスアプリケーションで一般的な構造化データや表形式データを効率的に管理するための独自のテクニックを取り入れています。

コア・コンセプトとテクニック

CatBoostの基礎は勾配ブースティングにあり、モデルは順次構築され、新しいモデルごとに前のモデルによるエラーを修正しようとする。CatBoostはいくつかの重要な革新的技術を導入している:

  • 最適化されたカテゴリ特徴処理:カテゴリ特徴(都市名や製品タイプなど)の数値形式への手動変換(ワンホットエンコーディングなど)を必要とする多くのアルゴリズムとは異なり、CatBoostは順序付きブースティングやターゲット統計のような新しい戦略を実装しています。これにより、CatBoostはカテゴリ特徴を直接使用することができ、大規模な特徴エンジニアリングを行うことなく、複雑な依存関係を効果的に捉えることができます。
  • 順序付けブースティング:ターゲットリーク(学習中にターゲット変数の情報が不注意に特徴量の取り扱いに影響すること)に対処し、オーバーフィッティングを減らすために設計された手法。これにより、未知のデータに対するモデルの汎化を向上させることができる。
  • 対称木:CatBoostは対称(または忘却)決定木を使用し、同じ分割基準が木のレベル全体にわたって適用される。この構造は正則化の一形態として機能し、実行を高速化し、オーバーフィッティングを防ぐのに役立ちます。

CatBoostと類似アルゴリズムの違い

CatBoostは、XGBoostや LightGBMのような他の一般的な勾配ブースティング・ライブラリとよく比較される。3つとも表データに対する教師あり学習タスクのための強力なツールですが、CatBoostの主な利点は、カテゴリ特徴のネイティブで高度な処理にあります。これは多くの場合モデリング・パイプラインを単純化し、XGBoostやLightGBMと比較して、特にカテゴリ変数が豊富なデータセットを扱う場合に、手作業によるハイパーパラメータのチューニングや前処理の必要性を少なくします。これらの勾配ブースティング・マシンが得意とするのは、主に構造化された表形式のデータであることを忘れてはならない。コンピュータ・ビジョン(CV)で典型的な、画像や動画のような非構造化データを含むタスクでは、畳み込みニューラルネットワーク(CNN)のような特殊なアーキテクチャや、次のようなモデルが使用されます。 Ultralytics YOLOのようなモデルが一般的に好まれている。これらのCVモデルは、画像分類物体検出画像セグメンテーションなどのタスクに取り組み、多くの場合、Ultralytics HUBなどのプラットフォームを使用して管理およびデプロイされます。

実世界での応用

CatBoostの強みは、特にデータに数値型とカテゴリー型が混在している場合など、幅広い用途に適している:

  • 金融詐欺の検出:バンキングと金融(金融におけるAI)において、CatBoostは、トランザクションの種類、加盟店のカテゴリ、ユーザーの場所、時間帯などのカテゴリ特徴を効果的に使用して、不正行為を特定するための堅牢なモデルを構築することができます。大規模な前処理なしでこれらの特徴を処理できる能力は、非常に価値があります。不正検知におけるMLについてもっと知る。
  • Eコマース・レコメンデーション・システム:CatBoostは、商品カテゴリー、ブランド、ユーザー属性、閲覧履歴などのカテゴリー情報を含むユーザー行動データから学習することで、レコメンデーションシステムを強化することができます。これは、パーソナライズされた商品提案を提供するのに役立ちます。詳しくは、レコメンダー・システム・ハンドブックをご覧ください。
  • 顧客の解約予測:企業はCatBoostを使用して、購読プラン、カスタマー・サポート・インタラクション・タイプ、人口統計情報などのカテゴリー・データを活用し、どの顧客がサービスの利用を停止する可能性が高いかを予測します。
  • 天気予報:気象パターンの予測には、数値データとともに多数のカテゴリー変数(雲のタイプや降水量のタイプなど)が含まれるため、CatBoostは有効な選択肢となる。
  • 医療診断サポート: 医用画像解析はCVモデルに頼ることが多いが、CatBoostは構造化された患者データ(症状や病歴コードのようなカテゴリーフィールドを含む)とともに使用することで、診断予測を支援することができる。

ツールと統合

CatBoostは、ユーザーフレンドリーなAPIを備えたオープンソースライブラリとして提供されており、主に次のような用途に利用できる。 Python用だが、Rやコマンドラインインターフェースもサポートしている。Pandasや Scikit-learnのような一般的なデータサイエンスフレームワークとうまく統合できるため、既存のMLOpsパイプラインに簡単に組み込むことができる。データサイエンティストは、Jupyterノートブックのような環境や、競技や研究のためのKaggleのようなプラットフォームでCatBoostを使用することが多い。CatBoostは、以下のようなディープラーニングフレームワークとは一線を画している。 PyTorchTensorFlowCatBoostは、PyTorchやTensorFlowのようなディープラーニングフレームワークとは異なりますが、特定のタイプのデータや問題、特に表形式の予測モデリングの領域では、強力な選択肢となります。CatBoostの公式ウェブサイトには、詳細なドキュメントとチュートリアルがあります。モデルの性能評価に関する洞察については、YOLO 性能メトリクスに関するガイドを参照してください。

すべて読む