术语表

LightGBM

了解 LightGBM，这是一款适用于大型数据集的快速、高效梯度提升框架，可在机器学习应用中提供高精确度。

LightGBM 是 Light Gradient Boosting Machine 的缩写，是Microsoft 研究院开发的一个高性能、开源梯度提升框架。它广泛应用于机器学习（ML）中的分类、回归和排序等任务，尤其是在处理大型数据集（大数据）时。LightGBM 以其速度和效率而闻名，与其他提升算法相比，它通常能在消耗较少内存的情况下实现较高的准确率。它以决策树算法中的概念为基础，属于梯度提升方法系列，通过迭代建立弱学习者集合来创建强大的预测模型。

LightGBM 如何实现速度和效率

LightGBM 采用了多项创新技术来优化性能和有效处理大规模数据：

基于梯度的单侧采样（GOSS）：这种方法侧重于梯度较大的数据实例（目前预测效果较差的数据实例），同时随机放弃梯度较小的实例。这样既能保持准确性，又能大大减少训练每棵树所需的数据量。
排他性特征捆绑（EFB）：这种技术将互斥特征（很少同时取非零值的特征）捆绑在一起，在不丢失重要信息的情况下有效减少了特征数量（降维）。这可以降低寻找最佳分割点的复杂度，从而加快训练速度。
树叶式生长：与逐层扩展树的传统逐层生长法不同，LightGBM 是逐叶生长树。它会选择损失减少最大的树叶进行分割，从而加快收敛速度，并可能使树更加复杂，但如果限制不当，有时可能会导致过度拟合。你可以在官方文档中了解更多关于逐叶生长的信息。

这些优化与基于直方图算法等技术的高效实现相结合，使得 LightGBM 的运行速度和内存效率都非常高，从而能够在海量数据集上进行训练，而使用标准优化算法的其他框架可能无法做到这一点。

LightGBM 的主要功能

LightGBM 为 ML 从业人员提供了多项优势：

速度与效率：与许多其他助推框架相比，训练速度明显更快，内存占用率更低。
高精度：通常能在表格数据任务中提供最先进的结果。
支持GPU ：支持在GPU上进行训练，以进一步加速。
并行和分布式训练：通过在多台机器上进行分布式训练，能够处理超大数据集。
分类特征处理：可直接处理分类特征，通常无需进行大量特征工程（如单次编码）。
正则化：包括正则化参数（如 L1 和 L2），以防止过度拟合。
大规模数据处理：专为高效处理内存可能无法容纳的超大数据集而设计。
超参数调整：提供可通过超参数调整进行调整的各种参数，以优化特定任务的性能。

有关详细用法和高级功能，请查阅LightGBM 官方文档及其GitHub 代码库。正确的数据预处理对于获得最佳结果仍然非常重要。

与其他助推框架的比较

LightGBM 经常与其他流行的梯度提升库（如XGBoost和CatBoost）进行比较。主要区别包括

速度由于采用了 GOSS 和 EFB 技术，LightGBM 通常被认为比 XGBoost 更快，尤其是在大型数据集上。CatBoost 的速度也很有竞争力，尤其是在处理分类特征时。
内存使用量：LightGBM 使用的内存通常比 XGBoost 少。
分类特征：CatBoost 内置了复杂的分类特征处理功能，在包含大量分类变量的数据集上，其性能往往优于 LightGBM 和 XGBoost（后者需要进行单次编码等预处理）。LightGBM 提供直接处理，但可能不如 CatBoost 的方法稳健。
树木生长：LightGBM 采用叶片式生长，而 XGBoost 和 CatBoost 通常采用水平式生长（尽管 XGBoost 也提供叶片式生长选项）。
超参数：每个库都有自己需要调整的超参数集。CatBoost 通常只需较少的调整即可获得良好效果。

在它们之间做出选择通常取决于具体的数据集特征（大小、特征类型）和项目要求。本对比文章等资源可提供更多见解。

实际应用

LightGBM 的优势使其适用于涉及结构化数据或表格数据的各种应用：

欺诈检测：在金融领域（金融领域的人工智能），LightGBM 可以快速处理数百万条交易记录（预测建模），近乎实时地识别表明欺诈活动的微妙模式。其速度对于及时干预至关重要。欺诈检测系统从其效率中获益匪浅。
预测性维护：制造商（制造业中的人工智能）使用 LightGBM 分析来自机械的传感器数据。通过对设备性能和故障的历史数据进行训练，该模型可在故障发生前预测潜在故障，从而实现主动维护并减少停机时间。了解有关预测性维护概念的更多信息。

其他常见应用包括客户流失预测、推荐系统、点击率预测、信用评分和需求预测。它的性能使其成为数据科学竞赛（如在Kaggle 上举办的竞赛）中的热门选择。

虽然 LightGBM 擅长使用表格数据来完成经典的 ML 任务，但它有别于以下模型 Ultralytics YOLO.YOLO 模型是专门的深度学习（DL）架构，设计用于计算机视觉（CV）任务，如非结构化图像或视频数据上的物体检测、图像分类和图像分割。Ultralytics HUB等平台为此类 CV 模型的开发和部署提供了便利。LightGBM 仍然是结构化数据问题的重要工具，在这些问题中，大型数据集的速度和效率至关重要。您可以浏览LightGBM原始研究论文，了解更多技术细节。

LightGBM

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

LightGBM 如何实现速度和效率

LightGBM 的主要功能

与其他助推框架的比较

实际应用

阅读更多博客

加入Ultralytics 社区