深圳Yolo 视觉
深圳
立即加入
词汇表

自监督学习

探索自监督学习如何消除手动标注的需求。了解生成式和对比式SSL方法,以增强Ultralytics YOLO26。

自监督学习(SSL)是一种机器学习范式,其中系统通过从数据本身生成监督信号来学习理解数据,而不是依赖外部人工提供的标签。在传统的监督学习中,模型需要大量人工标注数据——例如标记为“猫”或“狗”的图像——这可能成本高昂且耗时。SSL 通过创建“前置任务”绕过了这一瓶颈,模型必须预测输入数据中隐藏或缺失的部分,从而有效地自我学习对于目标检测和分类等复杂任务所必需的底层结构和特征。

自监督学习的核心机制

SSL 的基本思想是掩盖或隐藏部分数据,并迫使神经网络 (NN)重构它,或预测同一数据不同视图之间的关系。此过程创建了丰富的通用表示,这些表示稍后可针对特定的下游应用进行微调。

SSL 中有两种主要方法:

  • 生成式方法:模型学习生成像素或词语来填补空白。自然语言处理 (NLP) 中的一个经典例子是预测句子中的下一个词。在计算机视觉中,掩码自编码器 (MAE) 等技术会遮蔽图像的随机补丁,并让模型重建缺失的像素,迫使它“理解”视觉上下文。
  • 对比学习: 这种方法教会模型区分相似和不相似 数据点。通过对图像应用 数据增强 技术——例如裁剪、颜色抖动或旋转——模型学习到这些修改版本 代表同一对象(正样本对),同时将其他图像视为不同对象(负样本对)。 SimCLR等流行框架严重依赖这一原理。

实际应用

自监督学习已成为在各个领域构建强大基础模型的基石。它能够利用海量未标记数据,使其具有高度可扩展性。

  • 医学影像:获取专家标注的医学扫描图像既困难又昂贵。SSL(自监督学习)允许模型在数千张未标注的X射线或MRI扫描图像上进行预训练,以学习通用的解剖特征。然后,这个预训练模型可以通过少量标注样本进行微调,以在肿瘤检测或疾病诊断中实现高精度。
  • 自动驾驶:自动驾驶汽车每天生成数 TB 的视频数据。SSL 使这些系统能够从原始视频素材中学习时间动态和空间理解,而无需逐帧标注。这通过预测未来帧或物体运动来帮助改进车道 detect和避障。

区分 SSL 与相关术语

区分 SSL 与无监督学习非常重要。尽管这两种方法都利用未标记数据,但无监督学习通常侧重于在没有特定预测任务的情况下寻找隐藏模式或分组(聚类)。相反,SSL 将学习过程构建为监督任务,其中标签是根据数据结构本身自动生成的。此外,半监督学习结合了少量标记数据和大量未标记数据,而纯 SSL 在任何微调发生之前完全从未标记数据集中创建自己的标签。

在 Ultralytics 中利用预训练权重

在 Ultralytics 生态系统中,像YOLO26这样的模型从先进的训练策略中显著受益,这些策略在 ImageNet 或 COCO 等大规模数据集的预训练阶段通常会融入与 SSL 类似的原理。这确保了当用户为特定任务部署模型时,特征提取器已经足够鲁棒。

用户可以利用这些强大的预训练表示,使用Ultralytics 平台在自己的自定义数据集上微调模型。

以下是一个简洁示例,展示如何加载预训练的 YOLO26 模型并开始在新数据集上对其进行微调,从而利用其初始大规模训练期间学习到的特征:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")

# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

SSL 的未来

随着像Meta AIGoogle DeepMind这样的大型实验室的研究人员不断完善这些技术,SSL 正在推动生成式 AI和计算机视觉领域的可能性边界。通过减少对标记数据的依赖,SSL 正在普及高性能 AI,允许小型团队为野生动物保护工业检测等利基应用构建复杂的模型。

让我们一起共建AI的未来!

开启您的机器学习未来之旅