敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

探索集合学习及其在人工智能和 ML 中的作用

Abirami Vina

5 分钟阅读

2025 年 10 月 9 日

了解集合学习如何通过套袋、提升和堆叠等技术提高人工智能模型的性能,从而提供更准确、更稳定的预测。

推荐引擎和欺诈检测系统等人工智能创新依靠机器学习算法和模型来根据数据进行预测和决策。这些模型可以识别模式、预测趋势,并帮助实现复杂任务的自动化。 

然而,单一模型可能难以捕捉现实世界数据中的所有细节。它可能在某些情况下表现良好,但在另一些情况下就会出现问题,例如欺诈检测模型会遗漏新类型的交易。

人工智能工程师在构建和部署机器学习模型时经常会遇到这种限制。一些模型由于过于接近训练数据而导致拟合过度,而另一些模型则由于遗漏重要模式而导致拟合不足。集合学习是一种人工智能技术,它通过将多个模型(称为基础学习器)组合成一个更强大的系统,来帮助应对这些挑战。

你可以把它想象成一个专家团队,共同解决一个问题。在本文中,我们将探讨什么是集合学习、集合学习的工作原理以及集合学习的应用领域。让我们开始吧!

什么是集合学习?

集合学习指的是将多个模型结合起来解决同一问题并产生一个改进结果的一系列技术。它既可应用于监督学习(模型从标记数据中学习),也可应用于无监督学习(模型从无标记数据中寻找模式)。

集合模型不依赖一个模型进行预测,而是使用多个模型,每个模型都以自己的方式处理数据。当这些模型的输出结果结合在一起时,其结果往往比任何一个单独的模型所能达到的结果更加准确、稳定和具有普遍性。

您可以将其与处理相同问题的分析师小组进行比较。每个分析师或每个模型对数据的解释都不尽相同。

一个人可能关注模式,另一个人可能关注异常现象,还有一个人可能关注背景。将他们的观点汇集在一起,小组就能做出比任何个人判断都更平衡、更可靠的决定。 

这种方法还有助于解决机器学习中的两大难题:偏差和方差。偏差大的模型过于简单,会忽略重要的模式;而方差大的模型过于敏感,与训练数据贴合度太高。通过组合模型,集合学习可以在两者之间找到平衡点,从而提高系统在新的、未见过的数据上的表现。

了解集合学习的工作原理

集合中的每个模型都被称为基础学习器或基础模型。这些模型可以是同一类型的算法,也可以是不同算法的混合,具体取决于正在使用的集合技术。 

下面是集合学习中使用的不同模型的一些常见例子:

  • 决策树:这些模型根据特征值将数据分成若干分支,从而做出决策。例如,在预测客户是否会购买产品等分类问题中,它们会考虑年龄、收入和浏览历史等因素。
  • 神经网络:神经网络的灵感来源于人脑处理信息的方式,是大多数现代人工智能和机器学习模型背后的基本架构。
  • 支持向量机(SVM):这些算法通过寻找最优决策边界(称为超平面)来对数据进行分类,从而最大化不同类别之间的差值。换句话说,SVM 会画出一条最好的线,既能分隔不同组别,又能在它们之间留出最大的空隙。例如,SVM 可以根据词频和结构等模式来判断一封电子邮件是否是垃圾邮件。
  • 逻辑回归模型:它们估计概率,常用于二元分类任务。一个典型的例子就是预测交易是欺诈还是合法。

组合模型一般被称为强学习器,因为它整合了基础学习器(也称为弱模型)的优势,同时将它们的劣势降到最低。它通过结构化的方式组合每个模型的预测结果,在分类任务中使用多数投票,在回归任务中使用加权平均,从而得出更准确的最终结果。

图 1.集合学习示例(资料来源)

何时使用集合学习

在深入探讨各种集合学习技术之前,我们先来了解一下机器学习或人工智能项目中何时应该使用这种方法。

当单一模型难以做出准确或一致的预测时,集合学习就会发挥最大作用。它还可用于数据复杂、嘈杂或不可预测的情况。

以下是几种合奏方法特别有效的常见情况:

  • 模型准确性低:当一个模型的预测不够可靠时,结合多个模型可以显著提高准确性和性能。例如,在信用评分或医疗诊断中,即使预测准确率只有很小的提高,也会带来很大的不同。
  • 嘈杂或不一致的数据:如果数据集包含异常值、误差或随机波动,集合学习可通过对多个模型进行平均或投票来平滑这些不规则数据。
  • 需要稳健性:集合模型对微小数据变化的敏感度较低,使其在实际输入可能发生变化的生产环境中更加稳定可靠。
  • 复杂的预测任务:在图像识别、欺诈检测或时间序列预测等任务中,集合模型能捕捉到比单个模型更广泛的模式和关系。

同时,它也更易于训练、解释和维护。在使用集合之前,必须权衡更高精度带来的好处与所需的额外时间、计算能力和复杂性。

集合学习技术概述

接下来,让我们看看机器学习项目中应用集合学习的主要方式。有几种用于组合模型的核心技术,每种技术都能以各自的方式提高性能。最常见的集合方法有袋装法(bagging)、提升法(boosting)、堆叠法(stacking)和混合法(blending)。

装袋

Bagging 是 bootstrap aggregating 的缩写,是一种集合学习方法,通过在不同部分的数据上训练同一模型的多个版本,有助于提高模型的稳定性和准确性。 

每个子集的创建过程都称为引导取样,在这个过程中,数据点被随机选择,并进行替换。这意味着一个数据点被选中后,会在下一个数据点被选中之前被放回数据池中,因此同一个数据点可能会出现多次,而其他数据点可能会被遗漏。这种随机性确保了每个模型都能在略有不同的数据集版本上进行训练。

在推理过程中,所有训练有素的模型并行运行,对未见过的新数据进行预测。每个模型都会根据所学知识产生自己的输出结果,然后将这些单独的预测结果合并,形成最终结果。 

对于预测房价或销售预测等回归任务,这通常意味着平均所有模型的输出结果,以获得更平滑的估计值。对于分类任务,比如识别交易是否存在欺诈行为,集合模型通常会以多数票来决定最终类别。

袋式算法的实际应用随机森林算法

决策树就是一个很好的例子,它在单个数据集上训练时很容易出现过拟合。通过在略微不同的样本上训练多棵决策树并将它们的结果结合起来,套袋法可以减少过拟合并提高可靠性。 

考虑一下随机森林算法。它是决策树的集合,其中每棵树都是在训练数据集的随机子集和随机特征子集上训练出来的。 

这种特征随机性有助于确保树的相关性较低,从而使整体模型更加稳定和准确。随机森林算法可用于图像分类、检测欺诈、预测客户流失、预测销售或估算房产价格。

图 2.随机森林算法一览(资料来源)

提升

提升是另一种集合学习技术,主要是通过一个接一个的顺序训练而不是并行训练来改进弱学习者(模型)。提升的核心理念是,每个新模型都能从之前的错误中吸取教训,从而逐步提高模型的整体性能。 

不同于通过平均独立模型来减少方差的 "套袋法","提升法 "是通过让每个新模型更多地关注早期模型难以解决的困难案例来减少偏差。

由于提升模型是按顺序训练的,因此最后合并预测结果的方式与其他集合方法略有不同。每个模型对最终预测的贡献与其在训练过程中的表现成正比,更准确的模型会获得更大的权重。

对于回归任务,最终结果通常是所有模型预测结果的加权和。对于分类任务,算法会综合各模型的加权投票来决定最终类别。这种方法通过给更准确的模型更多权重来帮助提升创建一个强大的整体模型,同时还能从其他模型中学习。

以下是几种常见的提升算法:

  • AdaBoost(自适应提升):这种方法首先训练一个简单的模型,如小型决策树,然后增加被错误分类的数据点的权重。这些权重会使下一个模型更加关注困难的示例。经过多次迭代,模型会相互建立,它们的综合预测结果会更强、更准确。例如,AdaBoost 可以提高垃圾邮件检测或面部识别的准确率。
  • 梯度提升梯度提升法不是对样本重新加权,而是对每个新模型进行训练,以纠正残差误差(即实际值与预测值之间的差异)。这种迭代方法使其对回归和分类任务都非常有效,例如销售预测和信用评分。
  • XGBoost(极梯度增强):这一梯度提升技术的高级版本可同时提高速度和准确性。它使用正则化,在训练过程中对过于复杂的模型进行轻微惩罚,使其专注于有意义的模式,而不是记忆数据。虽然模型仍然是按顺序训练的,但 XGBoost 通过在树构建过程中使用并行化来加快进程。它可以在不同的 CPU 内核上同时评估多个可能的分割点。这使得训练速度大大加快,尤其是在大型数据集上,同时还能保持较高的预测性能。
图 3.基于决策树 (DTB) 的分类器实例,该分类器采用提升方法训练,用于预测糖尿病风险。(资料来源)

堆叠

堆叠,也称为堆叠泛化,是将多个模型的预测结果作为最终模型(称为元学习器)的输入,从而更进一步。你可以把它想象成有一群专家,他们各自分享自己的观点,然后最终决策者学习如何权衡这些观点,做出最佳决策。

例如,一个模型可能擅长发现欺诈行为,而另一个模型则更擅长预测客户流失。元学习器会研究每种模型的表现,并综合利用它们的优势做出更准确的最终预测。

混合

混合法的工作原理与堆叠法类似,因为它也是综合多个模型的预测结果来做出最终决策,但它采用的方法更简单、更快捷。混合法不像堆叠法那样使用交叉验证(这种方法将数据分成几个部分,在训练和测试之间轮换使用,以提高模型的可靠性),而是留出一小部分数据,称为保留集。 

基础模型先在剩余数据上进行训练,然后在它们以前从未见过的保留集上进行预测。这将产生两个关键信息:实际答案或真实标签,以及每个基础模型的预测结果。

然后,这些预测结果会传递给另一个模型,即混合模型或元模型。这个最终模型会研究每个基础模型预测的准确度,并学习如何以最佳方式将它们结合起来。 

由于混合法只依赖一次训练和测试拆分,而不是多次重复这一过程,因此运行速度更快,也更容易设置。但这样做的代价是,它可以学习的信息略少,这可能会让它的精确度稍差一些。 

评估集合算法

集合学习的一个重要部分是评估模型在未见过的数据上的表现。无论一项技术有多先进,都必须对其进行测试,以确保它能泛化,也就是说,它应该能对真实世界中的新示例做出准确预测,而不仅仅是记住训练数据。

以下是一些用于评估人工智能模型的常用性能指标:

  • 准确性: 该指标衡量模型在所有预测中的正确预测比例。
  • 精确度: 它表示预测为阳性的样本中有多少实际为阳性。高精度意味着模型很少出现假阳性错误。
  • 召回率:这一指标主要衡量模型正确识别出多少实际阳性病例。它在医疗保健等领域尤为重要,因为在这些领域,漏掉一个阳性病例(如疾病诊断)可能会造成严重后果。

集合学习在现实世界中的应用

到目前为止,我们已经探讨了集合学习的工作原理及其背后的技术。现在,让我们看看这种方法在哪些方面产生了影响。

以下是通常应用集合学习的一些关键领域:

  • 数据分析 和预测:在商业和分析领域,集合模型通过结合多个模型的洞察力,帮助企业做出更好的预测。
  • 二元分类:垃圾邮件检测、欺诈预防和医疗诊断等任务通常需要区分两种可能的结果。集合模型有助于减少假阳性和假阴性,这在网络安全和医疗保健等领域尤为重要。
  • 回归问题:在预测房价、销售收入或信贷风险等连续值时,集合方法可以捕捉数据中的复杂关系。这将带来更精确的预测,从而支持更好的财务和运营决策。

利用集合学习超越结构化数据

虽然集合学习最常用于结构化数据或表格数据,如包含数字或分类信息的电子表格,但它也可应用于文本、图像、音频和视频等非结构化数据。 

这些数据类型更加复杂,模型也更难解释,但集合方法有助于提高准确性和可靠性。例如,在计算机视觉领域,集合可以增强图像分类和物体检测等任务。 

通过将卷积神经网络(CNN)等多个视觉模型的预测结果结合起来,该系统可以更准确地识别物体,并处理可能会让单一模型感到困惑的光线、角度或背景变化。

了解 Ultralytics YOLOv5 模型组合

在计算机视觉中使用集合学习的一个有趣例子是,工程师将多个物体检测模型结合起来以提高准确性。想象一下,工程师正在为建筑工地开发一个安全监控系统,在这个系统中,光线、角度和物体大小都在不断变化。 

单个模型可能会漏掉阴影中的工人或混淆运动中的机器。通过使用具有不同优势的模型组合,系统会变得更加可靠,更不容易出现这些错误。

尤其是,像Ultralytics YOLOv5这样的模型可以与模型组合相辅相成。工程师可以将不同的 YOLOv5 变体(如 YOLOv5x 和 YOLOv5l6)组合在一起进行预测。每个模型都会分析同一幅图像并产生各自的检测结果,然后将检测结果平均化,生成更强大、更准确的最终结果。

图 4.使用 YOLOv5 检测图像中的物体(资料来源)

集合学习的利弊

以下是使用集合学习的一些主要优势:

  • 对噪声数据的适应能力: 由于集合依赖于多个模型,因此受数据集中异常值或随机噪声的影响较小。
  • 更好的泛化
  • 算法灵活:您可以将决策树、神经网络和线性模型等不同类型的模型结合起来,利用它们的独特优势。

虽然集合学习能带来各种优势,但也有一些挑战需要考虑。以下是几个需要注意的因素:

  • 更高的 计算成本:
  • 可解释性降低:由于最终输出是由多个模型组合而成的,因此很难理解为什么会做出某个决定。不过,这取决于所使用的模型,因为当您使用决策树或支持向量机等可解释的模型时,通常更容易理解结果。
  • 合奏设计注意事项:建立模型集合需要选择合适的模型组合,并确保它们能很好地协同工作。不过,在某些情况下,这也可能更简单,因为你不需要微调每个单独模型的超参数。

主要要点

集合学习展示了如何通过组合多个模型来提高人工智能系统的准确性和可靠性。它有助于减少错误,提高不同类型任务的性能。随着机器学习和人工智能的不断发展,类似这样的技术正在被更广泛地采用,并带来更多实用、高性能的人工智能解决方案。

加入我们不断壮大的社区 GitHub 存储库,了解有关视觉人工智能的更多信息。浏览我们的解决方案页面,了解计算机视觉在农业 物流领域的应用。查看我们的许可选项,立即开始使用您自己的计算机视觉模型!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板