术语表

LightGBM

了解 LightGBM,这是一款适用于大型数据集的快速、高效梯度提升框架,可在机器学习应用中提供高精确度。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

LightGBM 是 Light Gradient Boosting Machine 的缩写,是Microsoft 研究院开发的一个高性能、开源梯度提升框架。它广泛应用于机器学习(ML)中的分类、回归和排序等任务,尤其是在处理大型数据集(大数据)时。LightGBM 以其速度和效率而闻名,与其他提升算法相比,它通常能在消耗较少内存的情况下实现较高的准确率。它以决策树算法中的概念为基础,属于梯度提升方法系列,通过迭代建立弱学习者集合来创建强大的预测模型。

LightGBM 如何实现速度和效率

LightGBM 采用了多项创新技术来优化性能和有效处理大规模数据:

  • 基于梯度的单侧采样(GOSS):这种方法侧重于梯度较大的数据实例(目前预测效果较差的数据实例),同时随机放弃梯度较小的实例。这样既能保持准确性,又能大大减少训练每棵树所需的数据量。
  • 排他性特征捆绑(EFB):这种技术将互斥特征(很少同时取非零值的特征)捆绑在一起,在不丢失重要信息的情况下有效减少了特征数量(降维)。这可以降低寻找最佳分割点的复杂度,从而加快训练速度。
  • 树叶式生长:与逐层扩展树的传统逐层生长法不同,LightGBM 是逐叶生长树。它会选择损失减少最大的树叶进行分割,从而加快收敛速度,并可能使树更加复杂,但如果限制不当,有时可能会导致过度拟合。你可以在官方文档中了解更多关于逐叶生长的信息。

这些优化与基于直方图算法等技术的高效实现相结合,使得 LightGBM 的运行速度和内存效率都非常高,从而能够在海量数据集上进行训练,而使用标准优化算法的其他框架可能无法做到这一点。

LightGBM 的主要功能

LightGBM 为 ML 从业人员提供了多项优势:

  • 速度与效率:与许多其他助推框架相比,训练速度明显更快,内存占用率更低。
  • 高精度:通常能在表格数据任务中提供最先进的结果。
  • 支持GPU :支持在GPU上进行训练,以进一步加速。
  • 并行和分布式训练:通过在多台机器上进行分布式训练,能够处理超大数据集。
  • 分类特征处理:可直接处理分类特征,通常无需进行大量特征工程(如单次编码)。
  • 正则化:包括正则化参数(如 L1 和 L2),以防止过度拟合。
  • 大规模数据处理:专为高效处理内存可能无法容纳的超大数据集而设计。
  • 超参数调整:提供可通过超参数调整进行调整的各种参数,以优化特定任务的性能。

有关详细用法和高级功能,请查阅LightGBM 官方文档及其GitHub 代码库。正确的数据预处理对于获得最佳结果仍然非常重要。

与其他助推框架的比较

LightGBM 经常与其他流行的梯度提升库(如XGBoostCatBoost)进行比较。主要区别包括

  • 速度由于采用了 GOSS 和 EFB 技术,LightGBM 通常被认为比 XGBoost 更快,尤其是在大型数据集上。CatBoost 的速度也很有竞争力,尤其是在处理分类特征时。
  • 内存使用量:LightGBM 使用的内存通常比 XGBoost 少。
  • 分类特征:CatBoost 内置了复杂的分类特征处理功能,在包含大量分类变量的数据集上,其性能往往优于 LightGBM 和 XGBoost(后者需要进行单次编码等预处理)。LightGBM 提供直接处理,但可能不如 CatBoost 的方法稳健。
  • 树木生长:LightGBM 采用叶片式生长,而 XGBoost 和 CatBoost 通常采用水平式生长(尽管 XGBoost 也提供叶片式生长选项)。
  • 超参数:每个库都有自己需要调整的超参数集。CatBoost 通常只需较少的调整即可获得良好效果。

在它们之间做出选择通常取决于具体的数据集特征(大小、特征类型)和项目要求。本对比文章等资源可提供更多见解。

实际应用

LightGBM 的优势使其适用于涉及结构化数据表格数据的各种应用:

  1. 欺诈检测:在金融领域(金融领域的人工智能),LightGBM 可以快速处理数百万条交易记录(预测建模),近乎实时地识别表明欺诈活动的微妙模式。其速度对于及时干预至关重要。欺诈检测系统从其效率中获益匪浅。
  2. 预测性维护:制造商(制造业中的人工智能)使用 LightGBM 分析来自机械的传感器数据。通过对设备性能和故障的历史数据进行训练,该模型可在故障发生前预测潜在故障,从而实现主动维护并减少停机时间。了解有关预测性维护概念的更多信息。

其他常见应用包括客户流失预测、推荐系统、点击率预测、信用评分和需求预测。它的性能使其成为数据科学竞赛(如在Kaggle 上举办的竞赛)中的热门选择。

虽然 LightGBM 擅长使用表格数据来完成经典的 ML 任务,但它有别于以下模型 Ultralytics YOLO.YOLO 模型是专门的深度学习(DL)架构,设计用于计算机视觉(CV)任务,如非结构化图像或视频数据上的物体检测图像分类图像分割Ultralytics HUB等平台为此类 CV 模型的开发和部署提供了便利。LightGBM 仍然是结构化数据问题的重要工具,在这些问题中,大型数据集的速度和效率至关重要。您可以浏览LightGBM原始研究论文,了解更多技术细节。

阅读全部