敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

降维

使用降维技术简化高维数据。 立即提高 ML 模型性能、可视化和效率!

降维是 机器学习 (ML) 中一项至关重要的数据预处理技术,用于减少数据集中的特征数量(也称为变量或维度)。其主要目标是将高维数据转换为低维表示,同时保留尽可能多的有意义的信息。此过程对于简化模型、降低计算复杂性以及缓解一个称为“维度诅咒”的常见问题至关重要,在这种情况下,性能会随着特征数量的增加而降低。有效应用这些技术是 AI 开发生命周期 的关键部分。

为什么降维如此重要?

处理高维数据会带来若干挑战。在具有过多特征的数据集上训练的模型可能会变得过于复杂,从而导致过拟合,即模型学习的是噪声而不是底层模式。此外,更多的特征需要更多的计算能力和存储空间,从而增加训练时间和成本。降维通过以下方式解决这些问题:

  • 简化模型: 较少的特征会产生更简单的模型,这些模型更易于解释且不易过度拟合。
  • 提高性能: 通过删除不相关或冗余的特征(噪声),模型可以专注于数据中最重要的信号,从而通常可以提高准确性和泛化能力。
  • 降低计算负载: 较低维度的数据可显著加快模型训练速度并减少内存需求,这对于实时推理至关重要。
  • 增强可视化:不可能可视化超过三个维度的数据。诸如 t-SNE 之类的技术将数据减少到两个或三个维度,从而实现有见地的数据可视化

常用技术

降维主要有两种方法:特征选择和特征提取。

  • 特征选择: 这种方法涉及选择原始特征的子集并丢弃其余特征。它不会创建新特征,因此生成的模型具有高度的可解释性。方法通常分为过滤、包装或嵌入技术。
  • 特征提取: 这种方法通过从旧特征的组合创建新特征,将数据从高维空间转换为维度较少的空间。流行的技术包括:

降维与相关概念

区分降维与相关概念(如 特征工程)非常重要。虽然特征工程是一个创建、选择和转换变量以提高模型性能的广泛过程,但降维专门侧重于减少特征的数量。它可以被认为是特征工程的一个子领域。

类似地,虽然降维的结果是压缩数据,但其主要目标是提高模型性能,而不仅仅是减少存储空间,这才是像 ZIP 这样的通用数据压缩算法的主要目标。

在 AI 和 ML 中的应用

降维在许多人工智能 (AI)和 ML 应用中至关重要:

  • 计算机视觉(CV): 图像包含大量的像素数据。 卷积神经网络(CNN)(用于诸如 Ultralytics YOLO 之类的模型)中固有的特征提取减少了这种维度。 这使得模型能够专注于相关模式,以执行目标检测图像分类等任务,从而加快处理速度并提高模型性能。
  • 生物信息学: 分析基因组数据通常涉及包含数千个基因表达(特征)的数据集。降维帮助研究人员识别与疾病或生物功能相关的重要模式,使复杂的生物数据更易于管理。发表在像 Nature Methods 这样的期刊上的研究通常会使用这些技术。
  • 自然语言处理 (NLP): 可以使用 TF-IDF 或 词嵌入等技术在高维空间中表示文本数据。降维有助于简化这些表示,以用于文档分类情感分析等任务。
  • 数据可视化: 诸如 t-SNE 等技术对于在 2D 或 3D 中绘制高维数据集非常宝贵。这使人们能够直观地检查和理解数据中的潜在结构或关系,这对于在 Ultralytics HUB 等平台上管理复杂的数据集和模型非常有用。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板