术语表

自我监督学习

了解自监督学习如何利用无标记数据进行高效训练,从而改变计算机视觉、NLP 等领域的人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

自监督学习(SSL)是一种机器学习(ML)方法,能让模型从大量无标记数据中学习。自监督学习严重依赖于精心标注的数据,与之不同的是,自监督学习巧妙地直接从输入数据中创建自己的监督信号。这使得它在计算机视觉(CV)自然语言处理(NLP)等领域具有非凡的价值,因为在这些领域中,未标注的数据非常丰富,但人工标注(数据注释)的成本和工作量却高得令人望而却步。

自我监督学习如何运作

SSL 背后的核心机制包括设计一个 "借口任务"。这是一个辅助的、自我生成的任务,在这个任务中,模型必须预测被有意隐藏或改变的数据的某些属性。通过解决这个借口任务,模型不得不在没有人类提供的标签的情况下学习有意义的底层结构和数据表示(嵌入)。这一初始训练阶段通常被称为预训练。

例如,在计算机视觉领域,借口任务可能包括:

  • 预测洗牌图像斑块的相对位置
  • 为灰度图像着色
  • 填补图像的缺失部分(内绘)。
  • 通过对比同一图像的不同增强视图来学习表征,这是一种用于SimCLRMoCo对比学习方法的技术。

在 NLP 中,一个著名的前置任务是掩码语言建模,BERT 等模型就采用了这种方法。在这里,模型学习预测句子中被随机屏蔽(隐藏)的单词。

在大型无标记数据集上进行预训练后,模型就能捕捉到丰富的特征表征。然后,可以通过一个称为微调的过程,将这种预训练模型调整用于特定的下游任务,如物体检测图像分类情感分析。与从头开始训练模型相比,微调所需的标注数据量通常要小得多,这使得 SSL 成为有效迁移学习的关键因素。

SSL 与其他学习范式的比较

将 SSL 与相关的 ML 范式区分开来至关重要:

  • 监督学习:完全依赖标签数据,每个输入都与正确的输出配对。反之,SSL 则从数据本身生成标签。
  • 无监督学习:旨在寻找无标签数据中的模式(如类)或降低维度,而无需预定义的前置任务。虽然 SSL 与无监督学习一样使用无标记数据,但它的不同之处在于,通过前置任务创建明确的监督信号来指导表征学习。
  • 半监督学习:结合使用少量标记数据和大量未标记数据。SSL 预训练通常是半监督微调前的一个初步步骤。

实际应用

SSL 具有非常先进的人工智能(AI)功能:

  1. 推进计算机视觉模型:SSL 预训练使 Ultralytics YOLO11等模型从海量无标记图像数据集中学习稳健的视觉特征,然后再进行微调,以完成自动驾驶汽车中的物体检测医学图像分析等任务。在模型训练过程中,使用 SSL 得出的预训练权重往往能带来更好的性能和更快的收敛速度。
  2. 为大型语言模型(LLM)提供动力: GPT-4BERT等基础模型在大量文本语料的预训练阶段严重依赖 SSL 前置任务(如屏蔽语言建模)。这使它们能够理解语言结构、语法和上下文,为从复杂的聊天机器人机器翻译文本摘要等各种应用提供动力。

SSL 大大降低了对昂贵的标注数据集的依赖,使强大的人工智能模型的开发平民化。像 PyTorchTensorFlow等工具以及Ultralytics HUB 等平台提供了利用 SSL 技术构建和部署尖端人工智能解决方案的环境。

阅读全部