了解半监督学习如何结合标记和未标记数据来增强 AI 模型,降低标记成本并提高准确性。
半监督学习(SSL)是机器学习(ML)中的一个强大范例。 半监督学习(SSL)是机器学习(ML)中一种强大的范式,它在完全监督学习和半监督学习之间架起了一座桥梁。 之间的桥梁。 无监督学习之间的桥梁。有监督 方法需要完全注释的数据集,而无监督方法则完全在没有标签的情况下工作。 利用少量有标记数据和大量无标记数据。在现实世界的许多 在许多现实世界中,获取原始数据的成本相对较低,但对数据进行标注的过程却非常昂贵、费时。 数据标注过程却昂贵、耗时,而且需要人类的专业知识。 需要人类的专业知识。SSL 解决了这一瓶颈问题,它利用有限的标注示例来指导学习过程,使模型能够提取出结构化的数据。 让模型从大量未标注的片段中提取结构和模式,从而提高整体模型的准确性和概括性。 整体模型的准确性和通用性。
SSL 背后的基本机制包括从标记数据向非标记数据传播信息。这一过程 一般来说,这一过程首先是在小型标签数据集上训练一个初始模型。然后用这个模型来推断 预测。最有信心的预测结果--通常被称为伪标签--被视为基本事实。 真值,并在此扩展数据集上重新训练模型。这种迭代循环允许 神经网络学习的决策边界 比仅从标注数据中学习到的决策边界更稳健。
SSL 常用的技术包括
在数据丰富但专家注释稀缺的行业中,半监督学习尤其具有变革性。 稀缺。
要充分理解 SSL,最好将其与类似的学习范式区分开来:
实施半监督工作流程通常涉及 "教师-学生 "循环或迭代培训。下面
是一个概念性示例,使用 ultralytics Python 软件包来演示如何根据
来生成预测,这些预测可以作为进一步训练的伪标签。
from ultralytics import YOLO
# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")
# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)
# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.
深度学习框架,如 PyTorch和 TensorFlow等深度学习框架提供了实现自定义 SSL 循环和损失函数所需的构建模块。随着模型越来越大、数据量越来越大,像 SSL 这样的技术正成为标准做法 以最大限度地提高数据效率。
即将推出的Ultralytics 平台旨在简化类似的工作流程,帮助团队管理从原始数据到模型部署的过渡。 从原始数据到模型部署的过渡。 数据整理和 自动注释流程,帮助团队管理从原始数据到模型部署的过渡。通过 通过有效利用无标记数据,企业可以部署高性能的人工智能解决方案,如 YOLO11这样的高性能人工智能解决方案。 监督方法。

