术语表

XGBoost

了解 XGBoost,它是一种功能强大、速度快、用途广泛的机器学习算法,可在分类和回归任务中进行准确预测。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

XGBoost 是 Extreme Gradient Boosting 的缩写,是一种功能强大、应用广泛的开源 机器学习(ML)算法,旨在提高速度和性能。它属于梯度提升框架系列,梯度提升框架是一种按顺序建立模型的集合方法,新模型会纠正之前模型的错误。XGBoost 采用先进的正则化技术(如L1 和 L2 正则化)来防止过拟合,并优化计算资源以加快训练和预测速度,从而增强了传统的梯度提升技术。这使得它在分类回归任务中都非常有效,尤其是在处理结构化数据表格数据时。

了解梯度提升

XGBoost 的核心是梯度提升技术的优化实现,该技术由杰罗姆-H-弗里德曼(Jerome H. Friedman)大力开发。梯度提升技术以分阶段的方式建立弱学习者(通常是决策树)的集合。每棵新树都会尝试预测前几棵树所产生的残余误差(实际值与预测值之间的差异)。XGBoost 通过几项关键创新改进了这一过程,显著提高了效率和模型准确性

主要功能和改进

与标准梯度提升算法相比,XGBoost 引入了多项改进:

  • 正则化将 L1(Lasso)和 L2(Ridge)正则化项纳入目标函数,有助于防止过度拟合,提高模型泛化能力。
  • 并行处理:XGBoost 专为提高效率而设计,可在训练过程中利用多核GPU加快计算速度。
  • 处理缺失值内置处理缺失数据值的程序,可从数据本身学习最佳估算策略。
  • 树剪枝与标准梯度提升技术相比,采用了更先进的树剪枝技术(如带有 "max_depth "参数的深度优先剪枝和基于增益的后剪枝)。
  • 内置交叉验证:允许用户在提升过程的每次迭代中运行交叉验证,从而更容易获得最佳的提升轮数。
  • 缓存感知:通过感知缓存分级,优化硬件使用。
  • 灵活性:支持自定义目标和评估函数,为标准分类和回归以外的各种任务提供适应性。这有助于有效调整超参数

与其他算法的比较

虽然 XGBoost 对表格数据非常有效,但它与其他流行算法不同:

  • LightGBM另一种以速度著称的梯度提升框架,尤其是在超大数据集上。LightGBM 采用独特的树叶式增长策略,与 XGBoost 的水平式增长相比,速度更快,但有时在较小的数据集上更容易出现过拟合。
  • CatBoost由于其对此类变量的复杂处理,在处理包含许多分类特征的数据集时表现尤为突出。与 XGBoost 相比,它对分类数据的超参数调整要求通常更低。
  • 深度学习(DL)模型: 卷积神经网络(CNN)等算法或以下模型 Ultralytics YOLO等算法或 Ultralytics YOLO 等模型主要针对图像或文本等非结构化数据而设计,在计算机视觉(CV)(物体检测图像分割)等任务中表现出色。相反,XGBoost 通常更适用于商业分析中常见的结构化表格数据集。

实际应用

XGBoost 的性能和鲁棒性使其适用于各种预测建模应用:

  • 金融服务:广泛用于信用风险评估、欺诈检测和算法交易策略。例如,银行使用 XGBoost 建立模型,根据客户申请数据预测贷款违约的可能性。查看更多有关金融领域人工智能的信息
  • 零售和电子商务:应用于预测客户行为分析、客户流失、销售预测和构建推荐引擎。例如,在线零售商可能会使用 XGBoost 来预测哪些客户可能会对特定营销活动作出反应。
  • 医疗保健:根据临床数据预测患者预后和疾病风险,优化医院运营。了解更多人工智能在医疗保健领域的应用
  • 制造业:用于预测性维护(预测设备故障)、质量控制分析和优化生产流程。探索人工智能在制造业中的应用
  • 数据科学竞赛:XGBoost 因其高精度和高效率而成为Kaggle等数据科学竞赛中最受欢迎的算法。

在机器学习领域,XGBoost 仍然是一款非常实用且功能强大的工具,因其速度快、准确性高以及能够有效处理复杂的表格数据集而备受青睐。它通过官方 XGBoost 库继续进行开发,并与Scikit-learn等流行的 ML 库和Ultralytics HUB等平台很好地集成,以管理端到端的 ML 生命周期。

阅读全部