深圳Yolo 视觉
深圳
立即加入
词汇表

主成分分析 (PCA)

使用主成分分析 (PCA) 简化高维数据。立即提升 AI、ML 模型和数据可视化效率!

主成分分析(PCA)是一种基本的线性 广泛应用于统计学、数据科学和 广泛应用于统计学、数据科学和 机器学习 (ML) 中广泛使用。其主要目的是 简化复杂的高维数据集,同时保留最重要的信息。通过数学方法 将原始的相关变量集转化为更小的不相关变量集,即 "主成分"。 "主成分",PCA 使数据科学家能够减少噪音,提高计算效率,并使数据可视化更加容易。 方便数据可视化,而不会 数据中包含的关键模式。

主成分分析的工作原理

PCA 的机制依赖于线性代数的概念。 线性代数的概念来确定数据变化最大的方向(主 主成分)。第一个主成分捕捉了数据集中的最大方差,实际上代表了最主要的趋势。 数据集中的最大方差,实际上代表了最主要的趋势。其后的每个分量按 依次递减,但必须与前一个主成分正交(不相关)。这种 通常使用 协方差矩阵及其相应的 特征向量和特征值来计算。

通过只保留最上面的几个组件,从业人员可以将高维数据投射到低维数据中。 将高维数据投射到低维空间中,通常是二维或三维空间。 空间,通常是二维或三维空间。这一过程是 数据预处理的关键步骤。 维度诅咒。 在这种情况下,由于高维空间中数据稀少,模型难以概括。这种减少有助于防止 过拟合,并加快 模型训练

人工智能和 ML 的现实世界应用

PCA 广泛应用于各种 人工智能 (AI)领域,以优化性能和可解释性。 优化性能和可解释性。

  1. 人脸识别和压缩:在计算机视觉(CV 在计算机视觉 (CV) 领域,PCA 在人脸识别中一直发挥着关键作用。 在面部识别中发挥了关键作用。 称为 "特征面 "的方法在面部识别中发挥了关键作用。图像被视为高维向量,而 PCA 可提取出 将一张脸与另一张脸区分开来的基本特征(成分)。这样,系统就可以使用紧凑的表示法而不是原始的 这样,系统就可以使用紧凑的表示方法而不是原始像素数据来存储和比较人脸,从而大大提高了速度。
  2. 基因组学和生物信息学:生物信息学研究人员要处理的数据集包含每个样本成千上万个 每个样本的基因表达水平。PCA 使他们能够执行 探索性数据分析 (EDA)。 成千上万个维度的二维散点图,从而进行探索性数据分析(EDA)。这种可视化方法可以揭示出具有相似遗传特征的样本群。 有助于发现疾病亚型或异常检测。 异常检测

与现代计算机视觉技术相结合

而现代深度学习架构,如 卷积神经网络(CNN) 进行内部特征提取时,PCA 与分析所学表征高度相关。例如,用户在使用 YOLO11的用户可能会从模型主干中提取特征 例如,使用 YOLO11 的用户可能会从模型的主干中提取特征嵌入,以了解 模型区分不同类别的能力。

下面的示例演示了如何使用流行的 Scikit-learn库缩小高维特征向量,这是 可视化嵌入前的常见步骤。

import numpy as np
from sklearn.decomposition import PCA

# Simulate high-dimensional features (e.g., embeddings from a YOLO11 model)
# Shape: (100 samples, 512 features)
features = np.random.rand(100, 512)

# Initialize PCA to reduce data to 2 dimensions for visualization
pca = PCA(n_components=2)

# Fit the model and transform the features
reduced_features = pca.fit_transform(features)

# The data is now (100, 2), ready for plotting
print(f"Original shape: {features.shape}")
print(f"Reduced shape: {reduced_features.shape}")

PCA 与相关技术的比较

将 PCA 与无监督学习中的其他降维方法和特征学习方法区分开来很有帮助。 无监督学习

  • t-SNE(t-分布式随机邻域嵌入):PCA 是一种线性技术,侧重于保存全局方差,而 t-SNE 则不同,它是一种非线性技术,擅长于 保留局部邻域结构。这使得 t-SNE 在可视化聚类方面更胜一筹,但在数据压缩或重建方面却不太适用。 数据压缩或重建。
  • 自动编码器:这是一种基于神经网络的模型,可学习压缩和重构数据。自编码器可以捕捉到 复杂的非线性关系,但它们需要更多的数据和计算资源来训练。 的数据和计算资源。
  • 特征选择:PCA 创建的新特征(成分)是原始变量的组合,而特征选择 特征选择是指从原始特征中选择一个子集,剔除其余特征。当所有原始特征都能提供一些 当所有原始特征都能提供一些有价值的信息时,PCA 往往是首选。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入