了解集合学习如何通过套袋、提升和堆叠等技术提高人工智能模型的性能,从而提供更准确、更稳定的预测。

了解集合学习如何通过套袋、提升和堆叠等技术提高人工智能模型的性能,从而提供更准确、更稳定的预测。
推荐引擎和欺诈检测系统等人工智能创新依靠机器学习算法和模型来根据数据进行预测和决策。这些模型可以识别模式、预测趋势,并帮助实现复杂任务的自动化。
然而,单一模型可能难以捕捉现实世界数据中的所有细节。它可能在某些情况下表现良好,但在另一些情况下就会出现问题,例如欺诈检测模型会遗漏新类型的交易。
人工智能工程师在构建和部署机器学习模型时经常会遇到这种限制。一些模型由于过于接近训练数据而导致拟合过度,而另一些模型则由于遗漏重要模式而导致拟合不足。集合学习是一种人工智能技术,它通过将多个模型(称为基础学习器)组合成一个更强大的系统,来帮助应对这些挑战。
你可以把它想象成一个专家团队,共同解决一个问题。在本文中,我们将探讨什么是集合学习、集合学习的工作原理以及集合学习的应用领域。让我们开始吧!
集合学习指的是将多个模型结合起来解决同一问题并产生一个改进结果的一系列技术。它既可应用于监督学习(模型从标记数据中学习),也可应用于无监督学习(模型从无标记数据中寻找模式)。
集合模型不依赖一个模型进行预测,而是使用多个模型,每个模型都以自己的方式处理数据。当这些模型的输出结果结合在一起时,其结果往往比任何一个单独的模型所能达到的结果更加准确、稳定和具有普遍性。
您可以将其与处理相同问题的分析师小组进行比较。每个分析师或每个模型对数据的解释都不尽相同。
一个人可能关注模式,另一个人可能关注异常现象,还有一个人可能关注背景。将他们的观点汇集在一起,小组就能做出比任何个人判断都更平衡、更可靠的决定。
这种方法还有助于解决机器学习中的两大难题:偏差和方差。偏差大的模型过于简单,会忽略重要的模式;而方差大的模型过于敏感,与训练数据贴合度太高。通过组合模型,集合学习可以在两者之间找到平衡点,从而提高系统在新的、未见过的数据上的表现。
集合中的每个模型都被称为基础学习器或基础模型。这些模型可以是同一类型的算法,也可以是不同算法的混合,具体取决于正在使用的集合技术。
下面是集合学习中使用的不同模型的一些常见例子:
组合模型一般被称为强学习器,因为它整合了基础学习器(也称为弱模型)的优势,同时将它们的劣势降到最低。它通过结构化的方式组合每个模型的预测结果,在分类任务中使用多数投票,在回归任务中使用加权平均,从而得出更准确的最终结果。
在深入探讨各种集合学习技术之前,我们先来了解一下机器学习或人工智能项目中何时应该使用这种方法。
当单一模型难以做出准确或一致的预测时,集合学习就会发挥最大作用。它还可用于数据复杂、嘈杂或不可预测的情况。
以下是几种合奏方法特别有效的常见情况:
同时,它也更易于训练、解释和维护。在使用集合之前,必须权衡更高精度带来的好处与所需的额外时间、计算能力和复杂性。
接下来,让我们看看机器学习项目中应用集合学习的主要方式。有几种用于组合模型的核心技术,每种技术都能以各自的方式提高性能。最常见的集合方法有袋装法(bagging)、提升法(boosting)、堆叠法(stacking)和混合法(blending)。
Bagging 是 bootstrap aggregating 的缩写,是一种集合学习方法,通过在不同部分的数据上训练同一模型的多个版本,有助于提高模型的稳定性和准确性。
每个子集的创建过程都称为引导取样,在这个过程中,数据点被随机选择,并进行替换。这意味着一个数据点被选中后,会在下一个数据点被选中之前被放回数据池中,因此同一个数据点可能会出现多次,而其他数据点可能会被遗漏。这种随机性确保了每个模型都能在略有不同的数据集版本上进行训练。
在推理过程中,所有训练有素的模型并行运行,对未见过的新数据进行预测。每个模型都会根据所学知识产生自己的输出结果,然后将这些单独的预测结果合并,形成最终结果。
对于预测房价或销售预测等回归任务,这通常意味着平均所有模型的输出结果,以获得更平滑的估计值。对于分类任务,比如识别交易是否存在欺诈行为,集合模型通常会以多数票来决定最终类别。
决策树就是一个很好的例子,它在单个数据集上训练时很容易出现过拟合。通过在略微不同的样本上训练多棵决策树并将它们的结果结合起来,套袋法可以减少过拟合并提高可靠性。
考虑一下随机森林算法。它是决策树的集合,其中每棵树都是在训练数据集的随机子集和随机特征子集上训练出来的。
这种特征随机性有助于确保树的相关性较低,从而使整体模型更加稳定和准确。随机森林算法可用于图像分类、检测欺诈、预测客户流失、预测销售或估算房产价格。
提升是另一种集合学习技术,主要是通过一个接一个的顺序训练而不是并行训练来改进弱学习者(模型)。提升的核心理念是,每个新模型都能从之前的错误中吸取教训,从而逐步提高模型的整体性能。
不同于通过平均独立模型来减少方差的 "套袋法","提升法 "是通过让每个新模型更多地关注早期模型难以解决的困难案例来减少偏差。
由于提升模型是按顺序训练的,因此最后合并预测结果的方式与其他集合方法略有不同。每个模型对最终预测的贡献与其在训练过程中的表现成正比,更准确的模型会获得更大的权重。
对于回归任务,最终结果通常是所有模型预测结果的加权和。对于分类任务,算法会综合各模型的加权投票来决定最终类别。这种方法通过给更准确的模型更多权重来帮助提升创建一个强大的整体模型,同时还能从其他模型中学习。
以下是几种常见的提升算法:
堆叠,也称为堆叠泛化,是将多个模型的预测结果作为最终模型(称为元学习器)的输入,从而更进一步。你可以把它想象成有一群专家,他们各自分享自己的观点,然后最终决策者学习如何权衡这些观点,做出最佳决策。
例如,一个模型可能擅长发现欺诈行为,而另一个模型则更擅长预测客户流失。元学习器会研究每种模型的表现,并综合利用它们的优势做出更准确的最终预测。
混合法的工作原理与堆叠法类似,因为它也是综合多个模型的预测结果来做出最终决策,但它采用的方法更简单、更快捷。混合法不像堆叠法那样使用交叉验证(这种方法将数据分成几个部分,在训练和测试之间轮换使用,以提高模型的可靠性),而是留出一小部分数据,称为保留集。
基础模型先在剩余数据上进行训练,然后在它们以前从未见过的保留集上进行预测。这将产生两个关键信息:实际答案或真实标签,以及每个基础模型的预测结果。
然后,这些预测结果会传递给另一个模型,即混合模型或元模型。这个最终模型会研究每个基础模型预测的准确度,并学习如何以最佳方式将它们结合起来。
由于混合法只依赖一次训练和测试拆分,而不是多次重复这一过程,因此运行速度更快,也更容易设置。但这样做的代价是,它可以学习的信息略少,这可能会让它的精确度稍差一些。
集合学习的一个重要部分是评估模型在未见过的数据上的表现。无论一项技术有多先进,都必须对其进行测试,以确保它能泛化,也就是说,它应该能对真实世界中的新示例做出准确预测,而不仅仅是记住训练数据。
以下是一些用于评估人工智能模型的常用性能指标:
到目前为止,我们已经探讨了集合学习的工作原理及其背后的技术。现在,让我们看看这种方法在哪些方面产生了影响。
以下是通常应用集合学习的一些关键领域:
虽然集合学习最常用于结构化数据或表格数据,如包含数字或分类信息的电子表格,但它也可应用于文本、图像、音频和视频等非结构化数据。
这些数据类型更加复杂,模型也更难解释,但集合方法有助于提高准确性和可靠性。例如,在计算机视觉领域,集合可以增强图像分类和物体检测等任务。
通过将卷积神经网络(CNN)等多个视觉模型的预测结果结合起来,该系统可以更准确地识别物体,并处理可能会让单一模型感到困惑的光线、角度或背景变化。
在计算机视觉中使用集合学习的一个有趣例子是,工程师将多个物体检测模型结合起来以提高准确性。想象一下,工程师正在为建筑工地开发一个安全监控系统,在这个系统中,光线、角度和物体大小都在不断变化。
单个模型可能会漏掉阴影中的工人或混淆运动中的机器。通过使用具有不同优势的模型组合,系统会变得更加可靠,更不容易出现这些错误。
尤其是,像Ultralytics YOLOv5这样的模型可以与模型组合相辅相成。工程师可以将不同的 YOLOv5 变体(如 YOLOv5x 和 YOLOv5l6)组合在一起进行预测。每个模型都会分析同一幅图像并产生各自的检测结果,然后将检测结果平均化,生成更强大、更准确的最终结果。
以下是使用集合学习的一些主要优势:
虽然集合学习能带来各种优势,但也有一些挑战需要考虑。以下是几个需要注意的因素:
集合学习展示了如何通过组合多个模型来提高人工智能系统的准确性和可靠性。它有助于减少错误,提高不同类型任务的性能。随着机器学习和人工智能的不断发展,类似这样的技术正在被更广泛地采用,并带来更多实用、高性能的人工智能解决方案。
加入我们不断壮大的社区和 GitHub 存储库,了解有关视觉人工智能的更多信息。浏览我们的解决方案页面,了解计算机视觉在农业和 物流领域的应用。查看我们的许可选项,立即开始使用您自己的计算机视觉模型!