深圳Yolo 视觉
深圳
立即加入
词汇表

半监督学习

探索半监督学习如何结合标注数据和未标注数据以提高模型准确性。学习使用Ultralytics YOLO26实现SSL工作流。

半监督学习(SSL)是机器学习(ML)中的一种战略范式,它在两种传统训练方法之间架起了一座桥梁。尽管监督学习完全依赖于完整标注的数据集,而无监督学习则试图在没有任何标签的数据中发现模式,但SSL的运作方式是将少量标注数据与大量未标注数据结合起来。这种方法在现实世界的计算机视觉(CV)场景中尤其有价值,例如,从安全摄像头或卫星收集原始图像相对便宜,但由人类专家进行数据标注的过程则成本高昂、耗时且劳动密集。通过有效利用未标注样本中隐藏的结构,SSL 可以在不耗尽标注预算的情况下显著提高模型准确性和泛化能力。

半监督学习的核心机制

SSL 的主要目标是将少量标记样本中的信息传播到更大的未标记样本集。这使得神经网络能够学习穿过数据低密度区域的决策边界,从而实现更鲁棒的classify或detect。

两种流行技术推动了大多数半监督工作流程:

  • 伪标签:在此方法中,模型首先在有限的标注数据上进行训练。然后用于对未标注数据进行推理。超过特定置信度阈值的预测被视为“伪标签”或真实标签。这些高置信度预测被添加到训练数据中,模型重新训练,迭代地提高其性能。
  • 一致性正则化:这种技术依赖于 数据增强。其理念是,模型对于同一图像的原始版本和略微修改(增强)版本应输出相似的预测。通过最小化原始版本和增强版本之间预测的差异,模型学会关注对象的核心特征而非噪声,从而提高其处理 过拟合的能力。

YOLO的实际应用

以下python示例演示了使用ultralytics包的简单伪标签工作流。在这里,我们在小型数据集上训练一个YOLO26模型,然后使用它为未标记图像目录生成标签。

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)

# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)

实际应用

半监督学习正在改变数据丰富但专业知识稀缺的行业。

  • 医学影像:医疗AI中,获取扫描(X射线、MRI)是标准程序,但让一名经过委员会认证的放射科医生对每个像素进行肿瘤检测标注则成本过高。SSL允许研究人员仅使用一小部分专家标注的病例来训练高性能模型,利用数千份存档扫描来完善模型对生物结构的理解。
  • 自动驾驶:自动驾驶汽车公司每天从车队车辆收集数 PB 的视频数据。为object detectionsemantic segmentation标注每一帧是不可能的。通过 SSL,系统可以从绝大多数未标注的驾驶时长中学习,以更好地理解复杂的道路环境、天气条件和罕见的边缘情况。

区分相关概念

为有效部署AI解决方案,了解SSL与类似策略的区别至关重要:

  • 对比主动学习尽管两者都处理未标注数据,但它们的标注方法不同。SSL根据模型预测自动分配标签。相比之下,主动学习识别出最“令人困惑”或不确定的数据点,并明确请求人工参与进行标注,从而优化人工时间,而不是完全消除人工。
  • 对比迁移学习迁移学习涉及将一个在大型外部数据集(如ImageNet)上预训练的模型,并在您的特定任务上进行微调。然而,SSL侧重于在训练过程中利用您特定数据集分布中未标注的部分。
  • 对比自监督学习尽管名称相似,自监督学习通常指“前置任务”(例如解决图像块拼图),其中数据无需任何外部标签即可生成自身的监督信号。而SSL则特指利用一小组经过验证的标签来指导整个过程。

工具和未来展望

随着深度学习(DL)模型规模的增长,数据使用效率变得至关重要。像PyTorchTensorFlow这样的现代框架为这些高级训练循环提供了计算后端。此外,Ultralytics Platform等工具正在简化数据集管理的生命周期。通过利用自动标注等功能,团队可以更轻松地实施半监督工作流,将原始数据迅速转化为可用于生产的模型权重。MLOps的这一演进确保了创建高精度视觉系统的门槛持续降低。

让我们一起共建AI的未来!

开启您的机器学习未来之旅