DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

探索用于基于密度的聚类和异常检测的 DBSCAN。学习它如何配合 Ultralytics YOLO26 识别数据集中的任意形状和噪声。

DBSCAN（基于密度的带噪声空间聚类算法）是一种强大的无监督学习算法，用于根据密度识别数据中的不同组。与假设聚类为球形或需要预先设定组数的传统聚类方法不同，DBSCAN 可以定位由低密度区域分隔的高密度区域。这种能力使其能够发现任意形状和大小的聚类，非常适合分析底层结构未知的复杂现实世界数据集。该算法的一个关键优势是其内置的异常检测功能，因为它会自动将低密度区域中的点分类为噪声，而不是强行将其归入某个聚类中。

Link to this section核心概念与参数#

该算法通过定义每个数据点周围的邻域并计算该范围内包含的其他点数来运行。两个主要超参数控制此过程，需要仔细进行超参数调优以匹配数据的特定特征：

Epsilon (eps)： 此参数指定搜索邻居的点周围的最大半径。它定义了“可达性”距离。
最小点数 (minPts)： 这设定了在 Epsilon 半径内形成密集区域或“核心”所需的最小数据点数量。

基于这些参数，DBSCAN 将数据集中的每个点归类为以下三种类型之一：

Core Points: Points that have at least minPts neighbors within the eps radius. These points form the interior of a cluster.
边界点： 位于核心点的 eps 半径内，但自身邻居数少于 minPts 的点。它们构成了聚类的边缘。
噪声点： 既不是核心点也不是边界点的点。这些点实际上被视为离群值，对于离群值检测等任务非常有用。

Link to this sectionDBSCAN 与 K-Means 聚类#

虽然两者都是机器学习 (ML) 的基础，但 DBSCAN 在特定场景下比 K-Means 聚类具有明显的优势。K-Means 依赖于质心和欧几里得距离，通常假设聚类是凸形或球形的。这可能导致在细长或新月形数据上表现不佳。相比之下，DBSCAN 基于密度的方法使其能够遵循数据分布的自然轮廓。

另一个重大差异在于初始化。K-Means 要求用户预先指定聚类数量 (k)，这在没有先验知识的情况下可能很困难。DBSCAN 则自然地从数据密度中推断出聚类数量。此外，K-Means 对离群值很敏感，因为它强制将每个点归入一个组，这可能会扭曲聚类中心。DBSCAN 将点标记为噪声的能力可以防止数据异常污染有效的聚类，从而确保后续预测建模等任务的结果更加纯净。

Link to this section实际应用#

DBSCAN 广泛应用于需要空间分析和强大噪声处理能力的行业。

地理空间分析： 在城市规划和物流领域，分析师使用 DBSCAN 对配送车队或共享出行服务的 GPS 坐标进行分组。通过识别高密度卸货区，公司可以优化路线规划和仓库位置。例如，AI 在物流中的应用通常涉及聚类配送站点以提高效率。
基于视觉的异常检测： 在制造业中，由 YOLO26 等模型驱动的视觉检测系统可以检测表面缺陷。DBSCAN 可以将这些缺陷的坐标在产品图上进行聚类。孤立的检测结果可能被视为传感器噪声，而密集的聚类则表明存在系统的制造缺陷，从而触发质量检测的警报。

Link to this section代码示例：聚类检测质心#

在计算机视觉工作流中，开发者经常使用 Ultralytics Platform 训练目标检测器，然后对结果进行后处理。以下示例演示了如何使用 sklearn 库来聚类检测到的目标的质心。这有助于对空间相关的检测结果进行分组，从而合并同一个目标的多个边界框，或者识别目标群组。

import numpy as np
from sklearn.cluster import DBSCAN

# Simulated centroids of objects detected by YOLO26
# [x, y] coordinates representing object locations
centroids = np.array(
    [
        [100, 100],
        [102, 104],
        [101, 102],  # Cluster 1 (Dense group)
        [200, 200],
        [205, 202],  # Cluster 2 (Another group)
        [500, 500],  # Noise (Outlier)
    ]
)

# Initialize DBSCAN with a radius (eps) of 10 and min_samples of 2
# This groups points close to each other
clustering = DBSCAN(eps=10, min_samples=2).fit(centroids)

# Labels: 0, 1 are cluster IDs; -1 represents noise
print(f"Cluster Labels: {clustering.labels_}")
# Output: [ 0  0  0  1  1 -1]

Link to this section与深度学习的集成#

虽然 DBSCAN 是一种经典算法，但它能与现代深度学习有效配合。例如，从卷积神经网络 (CNN) 提取的高维特征可以在应用 DBSCAN 之前使用 PCA 或 t-SNE 等降维技术进行压缩。这种混合方法允许基于语义相似性（而非仅仅是像素位置）对复杂的图像数据进行聚类。这在无监督学习场景（标签训练数据稀缺时）中特别有用，能帮助研究人员高效地组织海量未标记的图像档案。

Explore solutions

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Link to this section核心概念与参数#

Link to this sectionDBSCAN 与 K-Means 聚类#

Link to this section实际应用#

Link to this section代码示例：聚类检测质心#

Link to this section与深度学习的集成#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！