敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

自监督学习

了解自监督学习如何利用未标记数据进行高效训练,从而改变计算机视觉、NLP 等领域的人工智能。

自监督学习 (SSL) 是一种机器学习技术,它允许模型从大量未标记数据中学习。SSL 不是依赖于人工提供的标签,而是通过创建和解决“预训练任务”来自动从数据本身生成标签。这个过程迫使模型学习数据有意义的底层模式和特征,例如图像中的纹理和形状或文本中的语法结构。这些学习到的特征创建了一个强大的基础,使模型能够在微调阶段,使用更少的标记数据,在下游任务上表现出色。SSL 弥合了完全监督学习(需要大量数据)和纯粹无监督学习(可能缺乏方向性)之间的差距。

自监督学习的工作原理

SSL背后的核心思想是pretext task——模型必须解决的自我创建的问题。此任务的标签直接从输入数据派生。通过解决pretext task,神经网络学习有价值的表示或嵌入,从而捕获数据的基本特征。

计算机视觉中常见的预训练任务包括:

  • 预测图像旋转: 该模型显示一张已随机旋转(例如,0、90、180 或 270 度)的图像,并且必须预测旋转角度。 为了正确地做到这一点,它必须识别物体的原始方向。
  • 图像修复: 图像的一部分被遮盖或移除,模型必须预测缺失的区域。这鼓励模型学习图像的上下文和纹理。
  • 对比学习: 该模型被训练为将相似(增强)图像的表示拉得更近,并将不同图像的表示推得更远。 像 SimCLR 这样的框架是这种方法的流行示例。

这种在未标记数据上的预训练产生了强大的模型权重,可以作为更具体任务的起点。

SSL 与其他学习范式的比较

区分 SSL 与相关的机器学习范例至关重要:

  • 监督学习: 完全依赖于标记数据,其中每个输入都与一个正确的输出配对。相反,SSL 从数据本身生成其自身的标签,从而显著减少了手动数据标注的需求。
  • 无监督学习: 旨在发现未标记数据中的模式(如 聚类)或降低维度,而无需预定义的预训练任务。虽然 SSL 像无监督学习一样使用未标记数据,但不同之处在于它通过预训练任务创建显式的监督信号,以指导表征学习。
  • 半监督学习: 使用少量标记数据和大量未标记数据的组合。SSL预训练通常是半监督微调的初步步骤。
  • 主动学习: 侧重于智能地从一个未标记的池中选择最具信息性的数据点,让人工进行标记。 而 SSL 从所有未标记的数据中学习,无需人工干预。 这两种方法可以在以数据为中心的人工智能工作流程中互为补充。

实际应用

SSL 显著提升了各个领域中的人工智能 (AI)能力:

  1. 推进计算机视觉模型: SSL 预训练使 Ultralytics YOLO 等模型能够从大量未标记的图像数据集中学习强大的视觉特征,然后再针对自动驾驶汽车中的对象检测医学图像分析等任务进行微调。使用从 SSL 导出的预训练权重通常可以提高性能并加快模型训练期间的收敛速度。
  2. 赋能大型语言模型 (LLM): 诸如 GPT-4BERT 等基础模型在对大量文本语料库进行预训练阶段,在很大程度上依赖于 SSL 预训练任务(如掩码语言建模)。这使它们能够理解语言结构、语法和上下文,从而为从复杂的 聊天机器人机器翻译文本摘要 的各种应用提供支持。

SSL 显著降低了对昂贵的已标注数据集的依赖,从而普及了强大 AI 模型的开发。PyTorchTensorFlow等工具,以及Ultralytics HUB等平台,提供了利用 SSL 技术构建和部署前沿 AI 解决方案的环境。您可以在NeurIPS和 ICML 等顶级 AI 会议上找到关于 SSL 的最新研究。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板