指南

探索集成学习及其在 AI 和 ML 中的作用

了解集成学习如何通过装袋法 (bagging)、提升法 (boosting) 和堆叠法 (stacking) 等技术提升 AI 模型性能，从而提供更准确、更稳定的预测。

ABAbirami Vina

5 min readOctober 9, 2025

想要直观地了解本文涵盖的概念，请观看下方的视频。

推荐引擎和欺诈检测系统等 AI 创新技术依赖于机器学习算法和模型，基于数据进行预测和决策。这些模型能够识别模式、预测趋势并帮助实现复杂任务的自动化。

然而，单一模型往往难以捕捉现实世界数据中的所有细节。它可能在某些情况下表现良好，但在其他情况下却表现不佳，例如欺诈检测模型错过了新型交易类型。

这是 AI 工程师在构建和部署机器学习模型时经常面临的局限性。一些模型因为过度学习训练数据而产生过拟合，而另一些则因错失重要模式而欠拟合。集成学习是一种 AI 技术，它通过将多个模型（称为基学习器）组合成一个更强大的系统来帮助解决这些挑战。

你可以把它想象成一个专家团队共同协作解决问题。在本文中，我们将探讨什么是集成学习、它的工作原理以及它的应用场景。让我们开始吧！

Link to this section什么是集成学习？#

集成学习是指一组通过组合多个模型来解决同一问题并产生单一改进结果的技术。它既适用于监督学习（模型从标记数据中学习），也适用于无监督学习（模型在未标记数据中寻找模式）。

集成学习不依赖单一模型进行预测，而是使用多个模型，每个模型以自己的方式审视数据。当它们的输出组合在一起时，结果通常比任何单一模型单独实现的结果更准确、更稳定且更具通用性。

你可以将其比作一个处理同一问题的分析师小组。每位分析师或个体模型对数据的解读各不相同。

一个人可能关注模式，另一个关注异常，还有一个关注背景。通过汇集他们的观点，小组可以做出比任何个人判断更平衡、更可靠的决策。

这种方法还有助于解决机器学习中两个最大的挑战：偏差和方差。偏差高的模型过于简单，容易忽略重要模式；而方差高的模型过于敏感，对训练数据的拟合过于紧密。通过组合模型，集成学习在两者之间找到了平衡，从而提高了系统在处理新的、未见数据时的性能。

Link to this section理解集成学习的工作原理#

集成中的每个模型都被称为基学习器或基础模型。根据所使用的集成技术，这些模型可以是相同类型的算法，也可以是不同算法的组合。

以下是集成学习中使用的不同模型的一些常见示例：

决策树：这些模型根据特征值将数据拆分为分支来进行决策。例如，在预测客户是否会购买产品的分类问题中，它们会考虑年龄、收入和浏览历史等因素。
神经网络：受人类大脑处理信息方式的启发，它们构成了大多数现代 AI 和机器学习模型背后的基本架构。
支持向量机 (SVMs)：这些算法通过寻找一个称为超平面的最优决策边界来对数据进行分类，该边界使不同类之间的间隔最大化。换句话说，SVM 绘制出尽可能好的线将组分开，同时在它们之间留下最大的间隙。例如，它可以根据词频和结构等模式来判断电子邮件是否为垃圾邮件。
逻辑回归模型：它们用于估计概率，常用于二分类任务。一个典型的例子是预测交易是欺诈性的还是合法的。

组合后的模型集成通常被称为强学习器，因为它集成了基学习器（也称为弱模型）的优势，同时最小化了它们的弱点。它通过结构化的方式组合每个模型的预测结果，使用多数投票（用于分类任务）或加权平均（用于回归任务）来产生更准确的最终结果。

集成学习示例

图 1. 集成学习示例（来源）

Link to this section何时使用集成学习#

在我们深入探讨各种集成学习技术之前，先退一步，了解何时应在机器学习或 AI 项目中使用这种方法。

当单一模型难以做出准确或一致的预测时，集成学习的效果最为显著。它也适用于数据复杂、充满噪声或不可预测的情况。

以下是一些集成方法特别有效的常见情况：

模型准确率低： 当一个模型的预测不够可靠时，组合多个模型可以显著提高准确率和性能。例如，在信用评分或医疗诊断中，即使是微小的预测准确率提升也能产生巨大的影响。
数据充满噪声或不一致： 如果数据集中包含异常值、错误或随机波动，集成学习通过对多个模型进行平均或投票，有助于平滑这些不规则之处。
对稳健性的需求： 集成模型对数据微小变化的敏感度较低，这使得它们对于现实世界输入多变的生产环境更加稳定和可靠。
复杂预测任务： 在图像识别、欺诈检测或时间序列预测等任务中，集成模型比单一模型能捕获更广泛的模式和关系。

它也更易于训练、更易于解释且更易于维护。在使用集成之前，权衡更高准确率带来的收益与它所需的额外时间、计算能力和复杂性是非常重要的。

Link to this section集成学习技术概述#

接下来，让我们看看在机器学习项目中应用集成学习的主要方式。有几种核心技术用于组合模型，每种技术都以自己的方式提升性能。最常见的集成方法是装袋法 (bagging)、提升法 (boosting)、堆叠法 (stacking) 和混合法 (blending)。

Link to this section装袋法 (Bagging)#

装袋法，即自助聚合 (bootstrap aggregating) 的缩写，是一种通过在数据的不同部分训练同一模型的多个版本来提高模型稳定性和准确性的集成学习方法。

每个子集都通过一种称为自助采样的过程创建，其中数据点是随机且有放回地选择的。这意味着在选择一个数据点后，它会被放回池中，然后再进行下一次选择，因此同一个点可能出现多次，而其他点可能会被遗漏。这种随机性确保了每个模型都在数据集的略微不同版本上进行训练。

在推理期间，所有训练好的模型并行运行，对新的、未见的数据进行预测。每个模型根据其学到的内容产生自己的输出，然后将这些单独的预测结果组合起来形成最终结果。

对于回归任务（如预测房价或销售预测），这通常意味着对所有模型的输出取平均值以获得更平滑的估计。对于分类任务（如识别交易是否为欺诈），集成模型通常通过多数投票来确定最终类别。

Link to this section装袋法的应用：随机森林算法#

决策树是装袋法发挥作用的一个好例子，它们在单一数据集上训练时容易过拟合。通过在略微不同的样本上训练多棵树并组合它们的结果，装袋法减少了过拟合并提高了可靠性。

考虑随机森林算法。它是一个决策树的集成，其中每棵树都在训练数据集的随机子集以及特征的随机子集上进行训练。

这种特征的随机性有助于确保树之间的相关性更低，并使整体模型更加稳定和准确。随机森林算法可用于图像分类、欺诈检测、客户流失预测、销售预测或房产价格估算。

随机森林算法概览

图 2. 随机森林算法概览（来源）

Link to this section提升法 (Boosting)#

提升法是另一种集成学习技术，它通过序列化地逐一训练弱学习器（模型）来改进它们，而不是并行训练。提升法的核心概念是每个新模型都从前一个模型的错误中学习，从而逐步提高整体模型性能。

与通过平均独立模型来减少方差的装袋法不同，提升法通过使每个新模型更加关注早期模型难以处理的困难案例来减少偏差。

由于提升模型是序列化训练的，它们在最后组合预测结果的方式与其他集成方法略有不同。每个模型根据其训练过程中的表现对最终预测做出贡献，表现更准确的模型权重更高。

对于回归任务，最终结果通常是所有模型预测的加权和。对于分类任务，算法结合了来自模型的加权投票来决定最终类别。这种方法通过给予更准确的模型更高权重，同时仍从其他模型中学习，帮助提升法构建了一个强大的整体模型。

以下是一些常见的提升算法类型：

AdaBoost (自适应提升)：该方法首先训练一个简单的模型（例如小决策树），然后增加被错误分类的数据点的权重。这些权重使得下一个模型更加关注困难的例子。经过多次迭代，模型相互构建，它们的组合预测形成了一个更强、更准确的结果。例如，AdaBoost 可以提高垃圾邮件检测或人脸识别的准确率。
梯度提升：梯度提升不是对样本重新加权，而是训练每个新模型来修正残差（即实际值与预测值之间的差异），这些残差是由前一个模型产生的。这种迭代方法使其对于回归和分类任务（如销售预测和信用评分）都非常有效。
XGBoost (极限梯度提升)：这种梯度提升的高级版本在速度和准确性上都有所提升。它使用正则化，在训练过程中对过于复杂的模型进行轻微惩罚，使它们专注于有意义的模式而不是死记硬背数据。尽管模型仍然是序列化训练的，但 XGBoost 通过在树构建过程中使用并行化来加快处理速度。它可以在不同的 CPU 核心上同时评估许多可能的分割点。这使得训练速度更快，尤其是在大型数据集上，同时保持了高预测性能。

使用 Boosting 训练的基于决策树的糖尿病风险预测分类器

图 3. 用于糖尿病风险预测、通过提升法训练的基于决策树 (DTB) 的分类器示例。（来源）

Link to this section堆叠法 (Stacking)#

堆叠法，也称为堆叠泛化，更进一步，它使用多个模型的预测结果作为最终模型（称为元学习器）的输入。你可以把它想象成有一组专家各抒己见，然后一个最终决策者学习如何权衡这些观点以做出最佳判断。

例如，一个模型可能非常擅长识别欺诈，而另一个模型更擅长预测客户流失。元学习器研究每个模型的表现，并结合它们的优势来做出更准确的最终预测。

Link to this section混合法 (Blending)#

混合法与堆叠法的工作方式类似，因为它也结合了多个模型的预测来做出最终决策，但它采用了一种更简单、更快速的方法。它不像堆叠法那样使用交叉验证（一种将数据分成几部分并轮换进行训练和测试以提高模型可靠性的方法），而是保留一小部分数据，称为留出集 (holdout set)。

基模型在剩余数据上进行训练，然后对它们从未见过的留出集进行预测。这产生了两条关键信息：实际答案（或真实标签）以及每个基模型做出的预测。

这些预测结果随后被传递给另一个模型，称为混合模型或元模型。这个最终模型研究每个基模型的预测准确度，并学习以最佳方式结合它们。

由于混合法只依赖于一次训练-测试划分，而不是重复多次该过程，因此它运行速度更快，设置也更简单。代价是它从中学习的信息略少，这可能会使其准确度稍微降低。

Link to this section评估集成算法#

集成学习的一个重要组成部分是评估模型在未见数据上的表现。无论技术多么先进，它都必须经过测试以确保其能够泛化，这意味着它应该对新的、现实世界的例子做出准确的预测，而不是仅仅记住了训练数据。

以下是一些用于评估 AI 模型的常见性能指标：

准确率 (Accuracy)：此指标衡量模型做出所有预测中正确预测的比例。它提供了整体性能的快速概览。
精确率 (Precision)：它表示预测为阳性的样本中有多少确实是阳性的。高精确率意味着模型产生的误报错误很少。
召回率 (Recall)：此指标侧重于模型正确识别了多少实际的阳性案例。在医疗保健等领域尤其重要，因为错过一个阳性案例（如疾病诊断）可能会产生严重后果。

Link to this section集成学习的现实应用#

到目前为止，我们已经探讨了集成学习的工作原理及其背后的技术。现在让我们看看这种方法在哪些领域产生了影响。

以下是集成学习常用的几个关键领域：

数据分析与预测：在商业和分析领域，集成模型通过结合多个模型的洞察力，帮助组织做出更好的预测。这带来了更准确的销售预测、更智能的需求计划以及对客户行为更清晰的理解。
二分类：垃圾邮件检测、欺诈预防和医疗诊断等任务通常需要区分两种可能的结果。集成模型有助于减少误报和漏报，这在网络安全和医疗保健等领域尤为关键。
回归问题：在预测房价、销售收入或信用风险等连续值时，集成方法能捕捉数据中的复杂关系。这产生了更精确的预测，支持更好的财务和运营决策。

Link to this section用集成学习超越结构化数据#

虽然集成学习最常用于结构化或表格数据（如包含数值或分类信息的电子表格），但它也可以应用于非结构化数据，如文本、图像、音频和视频。

这些数据类型更复杂，模型更难解读，但集成方法有助于提高准确性和可靠性。例如，在计算机视觉中，集成可以增强图像分类和目标检测等任务。

通过结合多个视觉模型（如卷积神经网络 CNN）的预测，系统能够更准确地识别物体，并处理单一模型可能感到困惑的光照、角度或背景变化。

Link to this section探究 Ultralytics YOLOv5 模型集成#

在计算机视觉中使用集成学习的一个有趣例子是工程师结合多个目标检测模型来提高准确率。想象一下，一位工程师正在构建一个工地安全监控系统，其中的光照、角度和物体大小都在不断变化。

单一模型可能会漏掉阴影中的工人，或者混淆运动中的机械。通过使用模型集成，每个模型各有所长，系统变得更加可靠，出现此类错误的可能性也更小。

特别是，像 Ultralytics YOLOv5 这样的模型与模型集成相辅相成。工程师可以结合不同的 YOLOv5 变体（如 YOLOv5x 和 YOLOv5l6）共同进行预测。每个模型分析相同的图像并产生自己的检测结果，然后将这些结果平均以生成更强大、更准确的最终结果。

使用 YOLOv5 检测图像中的物体

图 4. 使用 YOLOv5 进行图像目标检测。（来源）

Link to this section集成学习的优缺点#

以下是使用集成学习的一些主要好处：

对噪声数据的弹性：由于依赖于多个模型，集成学习受数据集中异常值或随机噪声的影响较小。
更好的泛化能力：集成减少了过拟合，帮助模型在未见数据上表现良好，而不是仅仅记住了训练示例。
跨算法的灵活性：你可以结合不同类型的模型，例如决策树、神经网络和线性模型，以利用它们独特的优势。

虽然集成学习带来了各种优势，但也有一些挑战需要考虑。以下是几点注意事项：

更高的计算成本：训练和维护多个模型比单个模型需要更多的内存、处理能力和时间。
可解释性降低：由于最终输出来自多个模型的组合，因此很难理解为什么会做出特定的决策。然而，这取决于所使用的模型，因为当你使用可解释的模型（如决策树或支持向量机）时，理解结果通常更容易。
集成设计考虑因素：构建一个集成模型涉及选择正确的模型组合，并确保它们协同工作良好。但在某些情况下，这也可能更简单，因为你不需要微调每个独立模型的超参数。

Link to this section关键要点#

集成学习展示了组合多个模型如何使 AI 系统变得更准确和可靠。它有助于减少错误并提高不同任务的性能。随着机器学习和 AI 的持续发展，这类技术正在推动更广泛的采用以及更实用、高性能的 AI 解决方案。

加入我们不断壮大的社区和 GitHub 存储库以了解更多关于视觉 AI 的信息。浏览我们的解决方案页面，了解农业中的计算机视觉和物流中的 AI 的应用。查看我们的许可选项以立即开始构建你自己的计算机视觉模型！

Explore solutions

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

探索集成学习及其在 AI 和 ML 中的作用

Link to this section什么是集成学习？#

Link to this section理解集成学习的工作原理#

Link to this section何时使用集成学习#

Link to this section集成学习技术概述#

Link to this section装袋法 (Bagging)#

Link to this section装袋法的应用：随机森林算法#

Link to this section提升法 (Boosting)#

Link to this section堆叠法 (Stacking)#

Link to this section混合法 (Blending)#

Link to this section评估集成算法#

Link to this section集成学习的现实应用#

Link to this section用集成学习超越结构化数据#

Link to this section探究 Ultralytics YOLOv5 模型集成#

Link to this section集成学习的优缺点#

Link to this section关键要点#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！