术语表

合奏

利用集合方法提高预测准确性!了解如何结合多个模型来提高物体检测、NLP 等方面的性能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

集合方法是机器学习(ML)人工智能(AI)领域的一项强大技术,它将多个单独的模型(通常称为基础学习器或弱学习器)进行策略性组合,以产生一个更强大的预测模型。其核心理念是,通过汇总多个不同模型的 "意见",最终的集合模型可以实现比任何单一组成模型更好的性能、更强的鲁棒性和更高的泛化能力。这种方法利用了 "群众智慧 "的原理,减少了单个模型的误差和偏差,从而获得更可靠的结果,这对计算机视觉(CV)等领域的复杂任务至关重要。

乐团如何工作

集合方法首先要训练多个基础模型。这些模型可以是同一类型的(同质集合),也可以是不同类型的(异质集合),如决策树支持向量机(SVM)神经网络(NN)的组合。关键通常在于鼓励基础模型之间的多样性,通过在不同的训练数据子集上进行训练或使用不同的算法或超参数等技术来实现。训练完成后,这些单个模型的预测结果将通过特定策略进行组合。常见的策略包括预测的平均值(用于回归任务)或使用多数投票(用于分类任务)。更复杂的方法可能涉及加权平均或学习另一个模型(元学习器),以确定组合基础模型输出的最佳方式。

使用合奏的好处

采用集合方法有几个显著优势:

  • 提高预测性能:与单一模型相比,集合模型通常能减少总体误差,从而获得更高的准确率和更好的F1 分数等指标性能。
  • 增强鲁棒性:通过对多个模型的预测结果进行平均,集合对训练数据中的特殊性或噪声以及单个学习者的具体弱点的敏感度较低。这有助于降低过度拟合的风险。
  • 更好的泛化:对于未见过的测试数据,集合往往具有更好的泛化能力,因为它们能捕捉到更广泛的模式,而且不太可能受到训练集特定方面的影响。这与管理偏差-方差权衡有关。

常见的合奏技巧

有几种成熟的技术可用于创建有效的合奏:

  • 套袋(Bootstrap Aggregating):包括在训练数据的不同随机子集上训练同一基础学习器的多个实例(取样替换)。预测通常通过投票或平均的方式进行聚合。随机森林(Random Forest)就是一个使用决策树的袋集技术的流行例子。
  • 增强按顺序建立集合。每个新模型都侧重于纠正前一个模型的错误。例如AdaBoost梯度提升机 (GBM)
  • 堆叠(堆叠泛化):将多个不同基础模型的预测结果(例如一个 Ultralytics YOLO模型、 RT-DETR模型和SVM)通过训练元模型(如逻辑回归)来学习如何最好地组合它们的输出。了解有关堆叠泛化的更多信息。

与相关术语的区别

将集合与其他 ML 概念区分开来非常重要:

  • 单一复杂模型:虽然单个大型模型(如深度CNN视觉转换器 (ViT))可能非常强大,但集合模型多个模型(通常更简单)组合在一起,以实现鲁棒性和潜在的更高精度。
  • 迁移学习涉及重新使用预先训练好的模型(或其部分内容)作为新任务的起点,而不是将多个独立训练好的模型的输出结果结合起来。
  • 多模式学习侧重于训练能够处理和整合来自不同类型数据(如图像和文本)的信息的模型,而集合通常是将处理相同类型数据和任务的模型结合起来。

实际应用

集合方法因其性能优势而被广泛应用于各个领域:

  1. 自主系统的计算机视觉:自动驾驶汽车和高级驾驶辅助系统(ADAS)中,物体检测模型的集合(可能结合了不同的架构,如YOLOv10YOLO11或采用不同数据增强策略训练的模型),可通过减少任何单一模型的失效模式,对行人、车辆和障碍物进行更可靠的检测。测试时间扩增 (TTA) 等技术可在推理时对输入图像的扩增版本进行平均预测。
  2. 金融欺诈检测:金融机构通常使用各种模型(逻辑回归、梯度提升、神经网络)来检测欺诈交易。将捕捉欺诈行为的不同模式和类型的模型结合起来,可形成更强大、更准确的检测系统,这对最大限度地减少金融损失至关重要。了解更多有关金融领域人工智能的信息
  3. 医学图像分析:医学图像分析中,CNN的集合可用于肿瘤检测或疾病分类等任务(如使用YOLO11 进行肿瘤检测)。将在不同数据子集上训练的模型或采用不同架构的模型组合在一起,可以提高诊断的准确性和可靠性。
  4. 竞赛平台:机器学习竞赛中,集合模型的效果非常明显,参赛者通常会将多个高性能模型结合起来,以获得竞争优势。

益处和考虑因素

集合模型虽然功能强大,但却增加了模型训练模型部署的复杂性和计算要求。管理多个模型需要更多资源和精心设计。然而,在关键应用中,性能的显著提升往往能证明这些成本是合理的。Ultralytics HUB等平台可简化多个模型的管理和训练,从而促进使用以下框架创建和部署有效的模型集 PyTorchTensorFlow.在模型评估过程中,评估性能提升与复杂性增加之间的权衡对于实际应用至关重要。

阅读全部