敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

K-均值聚类

了解 K-均值聚类,这是一种用于将数据分组到聚类中的关键无监督学习算法。 探索它的过程、应用和比较!

K-均值聚类是一种基础的无监督学习算法,广泛应用于数据挖掘机器学习(ML)领域。其主要目标是将数据集划分为预先指定数量的不同且不重叠的子组,或称为“簇”。名称中的“K”代表簇的数量。该算法通过将数据点根据其相似性进行分组,其中相似性通常通过点之间的欧几里得距离来衡量。每个簇由其中心表示,该中心被称为质心,是该簇内所有数据点的平均值。它是一种功能强大但简单的方法,用于发现未标记数据中的潜在模式和结构。

K-Means 的工作原理

K-Means 算法以迭代方式运行,以为所有数据点找到最佳聚类分配。该过程可以分解为几个简单的步骤:

  1. 初始化: 首先,选择聚类数量 K。然后,将 K 个初始质心随机放置在数据集的特征空间中。
  2. 分配步骤:将训练数据中的每个数据点分配到最近的质心。 这将形成 K 个初始聚类。
  3. 更新步骤: 通过取分配给每个聚类的所有数据点的平均值来重新计算每个聚类的质心。
  4. 迭代: 重复分配和更新步骤,直到聚类分配不再更改或达到最大迭代次数。此时,算法已收敛,并形成最终聚类。您可以查看 K-Means 算法的可视化解释,以获得更直观的理解。

选择合适的 K 值至关重要,通常需要领域知识或使用诸如手肘法轮廓系数之类的方法。这些方法在诸如 Scikit-learn 之类的库中广泛可用。

实际应用

由于其简单性和效率,K-均值聚类被广泛应用于各个领域:

  • 客户细分: 在零售和营销中,企业使用 K-Means 根据购买历史、人口统计数据或行为将客户分为不同的细分群体。例如,一家公司可能会识别出一个“高消费忠实客户”集群和一个“注重预算的偶尔购物者”集群。这允许有针对性的营销策略,如关于使用聚类进行客户细分的研究中所述。
  • 图像压缩:在计算机视觉 (CV)中,K-Means 用于颜色量化,这是一种降维形式。它将相似的像素颜色分组到 K 个簇中,用其簇的质心颜色替换每个像素的颜色。这减少了图像中的颜色数量,从而有效地压缩了图像。这项技术是图像分割中的一个基本概念。
  • 文档分析:该算法可以根据文档的词频对文档进行聚类,以识别主题或对相似的文章进行分组,这有助于组织大型文本数据集

K-均值聚类与相关概念的比较

区分 K-Means 和其他机器学习算法非常重要:

  • K-近邻(KNN):这是一个常见的混淆点。K-均值是一种无监督聚类算法,用于对未标记的数据进行分组。相比之下,KNN 是一种监督分类或回归算法,它根据其 K 个最近邻居的标签来预测新数据点的标签。K-均值创建组,而 KNN 将数据分类到预定义的组中
  • 支持向量机 (SVM):SVM 是一种用于分类的监督学习模型,它找到一个最佳超平面来分离类。K-Means 是无监督的,它基于相似性对数据进行分组,而没有任何预定义的标签。
  • DBSCAN:与K-Means不同,DBSCAN是一种基于密度的聚类算法,可以识别任意形状的聚类,并且对异常值具有鲁棒性。K-Means假设聚类是球形的,并且可能受到异常值的严重影响。

虽然 K-Means 是数据探索的基本工具,但实时目标检测等复杂任务依赖于更高级的模型。像 Ultralytics YOLO 这样的现代检测器使用复杂的深度学习技术来实现卓越的性能。然而,聚类中的概念(如分组锚框)是早期目标检测器开发的基础。使用 Ultralytics HUB 等平台可以简化此类任务的数据集管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板