了解自监督学习如何利用无标记数据进行高效训练,从而改变计算机视觉、NLP 等领域的人工智能。
自监督学习(SSL)是一种机器学习(ML)方法,能让模型从大量无标记数据中学习。自监督学习严重依赖于精心标注的数据,与之不同的是,自监督学习巧妙地直接从输入数据中创建自己的监督信号。这使得它在计算机视觉(CV)和自然语言处理(NLP)等领域具有非凡的价值,因为在这些领域中,未标注的数据非常丰富,但人工标注(数据注释)的成本和工作量却高得令人望而却步。
SSL 背后的核心机制包括设计一个 "借口任务"。这是一个辅助的、自我生成的任务,在这个任务中,模型必须预测被有意隐藏或改变的数据的某些属性。通过解决这个借口任务,模型不得不在没有人类提供的标签的情况下学习有意义的底层结构和数据表示(嵌入)。这一初始训练阶段通常被称为预训练。
例如,在计算机视觉领域,借口任务可能包括:
在 NLP 中,一个著名的前置任务是掩码语言建模,BERT 等模型就采用了这种方法。在这里,模型学习预测句子中被随机屏蔽(隐藏)的单词。
在大型无标记数据集上进行预训练后,模型就能捕捉到丰富的特征表征。然后,可以通过一个称为微调的过程,将这种预训练模型调整用于特定的下游任务,如物体检测、图像分类或情感分析。与从头开始训练模型相比,微调所需的标注数据量通常要小得多,这使得 SSL 成为有效迁移学习的关键因素。
将 SSL 与相关的 ML 范式区分开来至关重要:
SSL 具有非常先进的人工智能(AI)功能:
SSL 大大降低了对昂贵的标注数据集的依赖,使强大的人工智能模型的开发平民化。像 PyTorch和 TensorFlow等工具以及Ultralytics HUB 等平台提供了利用 SSL 技术构建和部署尖端人工智能解决方案的环境。