深圳Yolo 视觉
深圳
立即加入
词汇表

K-均值聚类

探索K均值聚类在无监督学习中的应用。了解该算法如何对数据进行分区,增强人工智能应用,并Ultralytics 等模型提供决策依据。

K均值聚类是无监督学习领域中基础且广泛应用的算法,旨在发掘无标签数据中的隐含结构。其核心目标是将数据集划分为互不重叠的子集(即聚类),使同一聚类内的数据点尽可能相似,而不同聚类间的数据点则呈现显著差异。 作为数据挖掘与探索性分析的基石,K均值算法使数据科学家能够自动将复杂信息组织为可管理的类别,无需预先定义标签或人工监督。

算法如何运行

K均值算法采用迭代方式运行,依赖距离度量来确定训练数据的最优分组方案。该算法通过将数据项组织成K个簇来运作,每个数据项归属于距离其均值(或质心)最近的簇。此过程可使各簇内部的方差最小化。其工作流程通常遵循以下步骤:

  1. 初始化:算法选取K个初始点作为聚类中心。这些中心点可随机选取,或通过k-means++等优化方法加速收敛过程
  2. 任务:数据集中的每个数据点都根据特定距离度量(最常见的是欧几里得距离)分配到最近的质心。
  3. 更新:通过计算分配到该簇的所有数据点的平均值(均值),重新计算质心。
  4. 迭代:重复步骤2和3,直至质心不再显著移动或达到最大迭代次数。

确定正确的聚类数(K)是使用该算法的关键环节。实践者常采用肘部法等技术,或分析轮廓分数,以评估所得聚类的分离程度。

人工智能在现实世界中的应用

K均值聚类法具有高度的灵活性,在简化数据和数据预处理方面被广泛应用于各个行业。

  • 图像压缩与色彩量化: 在计算机视觉(CV)领域,K均值聚类通过对像素颜色进行聚类处理,有效缩减图像文件体积。该算法将数千种色彩归纳为更精简的主导色系,在实现维度缩减的同时完整保留图像的视觉结构。此技术常用于训练高级目标检测模型前,对输入数据进行标准化处理。
  • 客户细分:企业通过聚类分析将客户按购买历史、人口统计特征或网站行为进行分组。这使得精准营销策略成为零售解决方案中人工智能的关键组成部分。通过识别高价值消费者或流失风险群体,企业能够有效定制营销信息。
  • 异常检测:通过学习"正常"数据簇的结构,系统能够识别远离任何质心的异常值。这对于金融领域的欺诈检测和网络安全中的异常检测具有重要价值,有助于标记偏离标准模式的可疑活动。
  • 锚框生成:历史上,YOLO 等目标检测器采用K均值算法 从训练数据集中计算最优锚框。 尽管现代模型如YOLOv6已采用先进的 无锚框方法,但理解K均值算法对检测架构的演进仍具重要意义。

实施实例

虽然深度学习框架(Ultralytics )负责处理复杂的训练流程,但K均值聚类常用于分析数据集统计特征。下面的Python 演示了如何使用流行的Scikit-learn库对二维坐标(模拟对象质心)进行聚类分析。

import numpy as np
from sklearn.cluster import KMeans

# Simulated coordinates of detected objects (e.g., from YOLO26 inference)
points = np.array([[10, 10], [12, 11], [100, 100], [102, 101], [10, 12], [101, 102]])

# Initialize K-Means to find 2 distinct groups (clusters)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto").fit(points)

# Output the cluster labels (0 or 1) for each point
print(f"Cluster Labels: {kmeans.labels_}")
# Output: [1 1 0 0 1 0] -> Points near (10,10) are Cluster 1, near (100,100) are Cluster 0

与相关算法的比较

区分K均值算法与其他名称或功能相似的算法至关重要,以确保为项目选择正确的工具。

  • K均值与K最近邻(KNN)算法:因名称中均含"K"字母,二者常被混淆。 K均值是一种用于聚类无标签数据的无监督算法。而K最近邻(KNN)则是基于标签数据的监督学习算法,主要应用于图像分类和回归任务,通过分析邻域数据中多数类别的分布来进行预测。
  • K均值与DBSCAN对比:两者均可聚类数据,但K均值假设聚类呈球形分布,且需预先定义聚类数量。 DBSCAN则基于密度聚合数据,能发现任意形状的聚类,并更擅长处理噪声。这使得DBSCAN在处理具有不规则结构且聚类数量未知的复杂空间数据集时更具优势。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入