半监督学习
了解半监督学习如何结合标记和未标记数据来增强 AI 模型,降低标记成本并提高准确性。
半监督学习 (SSL) 是一种机器学习 (ML)技术,它弥合了监督学习和无监督学习之间的差距。它利用少量标记数据和大量未标记数据来提高学习准确性。在许多实际场景中,获取未标记数据的成本很低,但数据标记过程既昂贵又耗时。SSL 通过允许模型从大量未标记示例中学习来应对这一挑战,并在较小的标记数据集提供的结构和信息的指导下进行学习。这种方法在深度学习 (DL)中尤其强大,因为模型需要庞大的数据集才能实现高性能。
半监督学习的工作原理
SSL背后的核心思想是使用标记数据来构建初始模型,然后使用该模型对未标记数据进行预测。然后,模型最自信的预测被视为“伪标签”并添加到训练集中。然后,在该原始标签和高置信度伪标签的组合上重新训练模型。这种迭代过程允许模型学习整个数据集的底层结构,而不仅仅是小的标记部分。
常见的自监督学习 (SSL) 技术包括:
- 一致性正则化: 此方法强调,即使输入数据略有扰动,模型预测也应保持一致。例如,经过轻微数据增强的图像应产生相同的分类结果。
- 生成模型: 诸如生成对抗网络 (GANs)之类的技术可以学习生成类似于真实数据分布的数据,从而有助于更好地定义类之间的决策边界。
- 基于图的方法: 这些方法将数据点表示为图中的节点,并根据其接近度或相似性将标签从标记节点传播到未标记节点。可以在学术调查中找到技术概述。
实际应用
在标注成为瓶颈的领域中,SSL 非常有效。两个突出的例子包括:
- 医学影像分析: 标记诸如 MRI 或 CT 等医学扫描图像以进行 肿瘤检测需要专业的放射科医生,而且非常昂贵。借助 SSL,可以在少量数百个标记扫描图像上训练模型,然后使用来自医院档案的数千个未标记扫描图像进行优化。这允许以更少的人工工作量开发强大的图像分类和分割模型。
- Web内容和文档分类: 手动分类数十亿个网页、新闻文章或客户评论是不切实际的。SSL可以使用一小组手动分类的文档来训练初始文本分类器。然后,该模型对大量未标记的文档进行分类,使用其自身的预测来随着时间的推移进行改进,以执行情感分析或主题分类等任务。
与其他学习范式的比较
区分 SSL 与相关的人工智能 (AI)概念非常重要:
- 自监督学习 (SSL): 虽然它共享一个首字母缩略词,但自监督学习是不同的。它是一种无监督学习类型,其中标签通过pretext任务从数据本身生成(例如,预测句子中被屏蔽的单词)。它不使用任何手动标记的数据,而半监督学习需要一个小的、显式标记的数据集来指导模型训练过程。
- 主动学习: 这种技术也旨在降低标注成本。但是,主动学习模型不是使用所有未标注的数据,而是智能地查询人工标注者来标注信息量最大的数据点。相比之下,SSL 通常在训练期间利用未标注的数据,而无需直接的人工交互。
- 迁移学习: 这涉及使用在大型数据集(如 ImageNet)上预训练的模型,然后在较小的、特定于任务的数据集上对其进行微调。虽然两者都利用现有知识,但 SSL 从目标任务本身的未标记数据中学习,而迁移学习则利用来自不同(但通常相关)任务的知识。
工具与训练
许多现代深度学习 (DL)框架,包括PyTorch(PyTorch 官方网站)和TensorFlow(TensorFlow 官方网站),都提供功能或可以进行调整以实现 SSL 算法。诸如Scikit-learn 提供了一些 SSL 方法之类的库。 诸如Ultralytics HUB之类的平台通过促进可能包含标记和未标记数据混合的数据集的管理来简化流程,从而简化了旨在利用此类数据结构的模型的训练和部署。 SSL 的研究不断发展,其成果通常在主要的 AI 会议(如 NeurIPS 和 ICML)上展示。