Unsupervised Learning
探索无监督学习以发现未标注数据中的隐藏模式。了解聚类、异常检测,以及它如何驱动现代 AI 解决方案。
无监督学习是一种机器学习,其算法在没有人工干预的情况下从无标签数据中学习模式。与依赖带标签的输入-输出对来训练模型的监督学习不同,无监督学习处理的是没有历史标签的数据。系统本质上是通过发现输入数据中的隐藏结构、模式或关系来尝试自我教学。这种方法非常有价值,因为当今生成的大量数据(图像、视频、文本和传感器日志)都是非结构化且无标签的。
Link to this section无监督学习的工作原理#
在无监督场景中,算法自主发现数据中有趣的结构。其目标通常是对数据的底层分布进行建模,或者学习关于数据本身的更多信息。由于训练过程中没有提供“正确答案”,因此无法以传统意义上的准确率来评估模型。相反,性能通常是通过模型在降低维度或将相似数据点聚类方面的效果来衡量的。
这种方法反映了人类学习新概念的方式。例如,儿童可以通过观察狗和猫的不同形状和行为来区分它们,而不必预先知道“狗”和“猫”这些名称。同样,无监督算法根据固有的相似性对信息进行分组。这种能力对于通用人工智能 (AGI) 的发展至关重要,因为它允许系统在无需持续人工监督的情况下适应新环境。
Link to this section无监督学习的关键技术#
无监督学习包含几种不同的技术,每种技术都适用于不同类型的数据分析问题:
- 聚类: 这是最常见的应用,算法将彼此相似的数据点进行分组。一种流行的方法是 K-Means 聚类,它根据特征相似度将数据划分为 k 个不同的组。这广泛应用于市场细分,以识别具有相似购买行为的客户群。
- 降维: 高维数据可能非常复杂,处理成本高昂。诸如 主成分分析 (PCA) 等技术可以在保留数据集基本信息的同时减少变量数量。这简化了 数据可视化,并加速了其他机器学习模型的训练。
- 异常检测: 通过学习“正常”数据的样子,无监督模型可以识别显著偏离常态的异常值。这对于 金融领域的欺诈检测 至关重要,异常的交易模式会在该领域触发安全警报。
- 关联规则学习: 此技术旨在发现大型数据库中变量之间的有趣关系。它以用于购物篮分析而闻名,帮助零售商了解购买面包的客户也很有可能购买黄油。
Link to this section无监督学习与监督学习的对比#
区分 无监督学习 和 监督学习 很重要。主要区别在于使用的数据。监督学习需要 带标签的数据集,这意味着每个训练样本都配有一个正确的输出(例如,一张标有“猫”的猫的图像)。模型通过学习将输入映射到输出来最小化误差。
相比之下,无监督学习使用无标签数据。没有任何反馈回路告诉模型其输出是否正确。存在一种被称为 半监督学习 的中间地带,它结合了少量带标签数据和大量无标签数据来提高学习准确性,通常在标记数据昂贵或耗时时使用。
Link to this section实际应用#
无监督学习推动了我们日常遇到的许多技术。以下是两个具体例子:
-
零售中的客户细分: 电子商务平台在没有预定义类别的情况下分析数以百万计的用户交互。通过使用聚类算法,它们识别出不同的用户画像,例如“周末捡漏者”或“科技发烧友”。这实现了高度个性化的营销活动和 推荐系统,显著改善了客户体验。
-
基因组序列分析: 在生物信息学中,研究人员利用无监督学习来分析遗传数据。算法对 DNA 序列进行聚类,以寻找不同人群中相似的遗传标记或突变。这有助于理解进化关系,并在无需预先了解每个特定基因功能的情况下识别疾病的遗传倾向。
Link to this section代码示例:使用 Scikit-Learn 进行聚类#
虽然 Ultralytics YOLO26 主要是一个监督式目标检测框架,但无监督技术通常用于预处理步骤,例如分析锚框分布或对数据集特征进行聚类。以下是一个使用 sklearn 执行 K-Means 聚类(一种基础的无监督技术)的简单示例。
import numpy as np
from sklearn.cluster import KMeans
# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (no labels provided!)
kmeans.fit(X)
# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)Link to this section无监督学习在深度学习中的作用#
现代 深度学习 (DL) 正日益融合无监督学习的原则。诸如 自监督学习 (SSL) 等技术允许模型从数据中生成自己的监督信号。例如,在 自然语言处理 (NLP) 中,GPT-4 等模型在海量文本上进行预训练以预测句子中的下一个单词,从而在没有显式标签的情况下有效学习语言结构。
同样,在 计算机视觉 (CV) 中,自动编码器被用于学习高效的数据编码。这些神经网络将图像压缩成低维表示,然后进行重建。这个过程教会了网络视觉数据中最显著的特征,这对于 图像去噪 和生成式建模等任务非常有用。
对于希望管理训练数据集的用户,Ultralytics Platform 提供了可视化数据分布的工具,这有助于在监督训练过程开始之前识别聚类或异常情况。通过无监督探索来了解数据的结构,通常是构建稳健 AI 解决方案的第一步。






