术语表

XGBoost

了解 XGBoost，它是一种功能强大、速度快、用途广泛的机器学习算法，可在分类和回归任务中进行准确预测。

XGBoost 是 Extreme Gradient Boosting 的缩写，是一种功能强大、应用广泛的开源机器学习（ML）算法，旨在提高速度和性能。它属于梯度提升框架系列，梯度提升框架是一种按顺序建立模型的集合方法，新模型会纠正之前模型的错误。XGBoost 采用先进的正则化技术（如L1 和 L2 正则化）来防止过拟合，并优化计算资源以加快训练和预测速度，从而增强了传统的梯度提升技术。这使得它在分类和回归任务中都非常有效，尤其是在处理结构化数据或表格数据时。

了解梯度提升

XGBoost 的核心是梯度提升技术的优化实现，该技术由杰罗姆-H-弗里德曼（Jerome H. Friedman）大力开发。梯度提升技术以分阶段的方式建立弱学习者（通常是决策树）的集合。每棵新树都会尝试预测前几棵树所产生的残余误差（实际值与预测值之间的差异）。XGBoost 通过几项关键创新改进了这一过程，显著提高了效率和模型准确性。

主要功能和改进

与标准梯度提升算法相比，XGBoost 引入了多项改进：

正则化将 L1（Lasso）和 L2（Ridge）正则化项纳入目标函数，有助于防止过度拟合，提高模型泛化能力。
并行处理：XGBoost 专为提高效率而设计，可在训练过程中利用多核GPU加快计算速度。
处理缺失值内置处理缺失数据值的程序，可从数据本身学习最佳估算策略。
树剪枝与标准梯度提升技术相比，采用了更先进的树剪枝技术（如带有 "max_depth "参数的深度优先剪枝和基于增益的后剪枝）。
内置交叉验证：允许用户在提升过程的每次迭代中运行交叉验证，从而更容易获得最佳的提升轮数。
缓存感知：通过感知缓存分级，优化硬件使用。
灵活性：支持自定义目标和评估函数，为标准分类和回归以外的各种任务提供适应性。这有助于有效调整超参数。

与其他算法的比较

虽然 XGBoost 对表格数据非常有效，但它与其他流行算法不同：

LightGBM：另一种以速度著称的梯度提升框架，尤其是在超大数据集上。LightGBM 采用独特的树叶式增长策略，与 XGBoost 的水平式增长相比，速度更快，但有时在较小的数据集上更容易出现过拟合。
CatBoost：由于其对此类变量的复杂处理，在处理包含许多分类特征的数据集时表现尤为突出。与 XGBoost 相比，它对分类数据的超参数调整要求通常更低。
深度学习（DL）模型： 卷积神经网络（CNN）等算法或以下模型 Ultralytics YOLO等算法或 Ultralytics YOLO 等模型主要针对图像或文本等非结构化数据而设计，在计算机视觉（CV）（物体检测、图像分割）等任务中表现出色。相反，XGBoost 通常更适用于商业分析中常见的结构化表格数据集。

实际应用

XGBoost 的性能和鲁棒性使其适用于各种预测建模应用：

金融服务：广泛用于信用风险评估、欺诈检测和算法交易策略。例如，银行使用 XGBoost 建立模型，根据客户申请数据预测贷款违约的可能性。查看更多有关金融领域人工智能的信息。
零售和电子商务：应用于预测客户行为分析、客户流失、销售预测和构建推荐引擎。例如，在线零售商可能会使用 XGBoost 来预测哪些客户可能会对特定营销活动作出反应。
医疗保健：根据临床数据预测患者预后和疾病风险，优化医院运营。了解更多人工智能在医疗保健领域的应用。
制造业：用于预测性维护（预测设备故障）、质量控制分析和优化生产流程。探索人工智能在制造业中的应用。
数据科学竞赛：XGBoost 因其高精度和高效率而成为Kaggle等数据科学竞赛中最受欢迎的算法。

在机器学习领域，XGBoost 仍然是一款非常实用且功能强大的工具，因其速度快、准确性高以及能够有效处理复杂的表格数据集而备受青睐。它通过官方 XGBoost 库继续进行开发，并与Scikit-learn等流行的 ML 库和Ultralytics HUB等平台很好地集成，以管理端到端的 ML 生命周期。

XGBoost

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解梯度提升

主要功能和改进

与其他算法的比较

实际应用

阅读更多博客

加入Ultralytics 社区