Active Learning
了解主动学习如何优化 AI 训练。学习如何使用 Ultralytics YOLO26 来识别信息量大的数据、降低标注成本并提高准确性。
主动学习是一种机器学习 (ML)中的策略方法,算法会在其中主动选择最具信息量的数据点进行标注,而不是被动接受预先标注好的数据集。在传统的监督学习中,模型通常需要海量的标注数据,而这些数据的创建既昂贵又耗时。主动学习通过识别“不确定”或“困难”的样本(即处于决策边界附近或模型缺乏信心的样本)并请求人工标注员仅对这些特定实例进行标注,从而优化了这一过程。这种迭代循环使模型能够以更少的标注样本实现高准确率,从而在项目预算或时间受限的情况下保持极高的效率。
Link to this section主动学习周期是如何运作的#
主动学习的核心是一个通常被称为人在回路的反馈循环。模型不再是在静态数据集上进行一次性训练,而是通过查询和更新的循环不断演进。
-
初始化:该过程从一小部分已标注的训练数据开始,用于训练初始模型,例如 Ultralytics YOLO26。
-
查询选择:模型评估大量未标注的数据池。使用一种查询策略(最常见的是不确定性采样),它会筛选出预测置信度最低的图像或文本。
-
重训练:将新标注的数据添加到训练集中,并对模型进行重训练。更新后的模型随后将具备更强的能力来选择下一批令人困惑的样本。
Link to this section实际应用#
主动学习在数据丰富但标注需要专业知识或高昂成本的行业中是必不可少的。
- 医学图像分析:在放射学等领域,标注工作需要持有证书的专家,而他们的时间极其宝贵。主动学习系统无需医生标注数千张清晰的扫描图,而是可以过滤出含糊不清的病例——例如早期肿瘤或罕见异常——从而让专家仅关注那些真正能提升模型诊断能力的图像。
- 自动驾驶汽车:自动驾驶汽车会产生拍字节级别的视频数据,对每一帧进行标注是不可能的。主动学习可以帮助工程师识别边缘案例,例如穿着特殊服装的行人或在重雪中行驶的车辆,这些是标准目标检测模型可能会遗漏的场景。通过优先处理这些罕见场景,公司可以在不浪费资源处理重复的高速公路视频的情况下提高安全性。
Link to this sectionPython 示例:过滤不确定的预测#
以下示例演示了使用 Ultralytics YOLO26 的简单“不确定性采样”逻辑。我们加载一个模型,对图像运行推理,并将那些置信度得分低于特定阈值的图像标记出来,以供人工复核。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# List of unlabeled image paths
unlabeled_images = ["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"]
# Run inference
results = model(unlabeled_images)
# Identify samples with low confidence for active learning
uncertain_threshold = 0.6
for result in results:
# Check if any detection confidence is below the threshold
if result.boxes.conf.numel() > 0 and result.boxes.conf.min() < uncertain_threshold:
print(f"Active Learning Query: {result.path} needs human labeling.")Link to this section区分相关概念#
区分主动学习与类似的训练范式非常重要:
- 半监督学习:虽然这两种方法都利用了未标注数据,但半监督学习是根据模型的高置信度预测自动分配伪标签。相比之下,主动学习会明确要求人类对低置信度预测进行输入。
- 迁移学习:这涉及获取一个预训练模型(例如在 ImageNet 上训练的模型)并将其适配到新任务。主动学习侧重于标注哪些数据,而迁移学习则侧重于复用已学习的特征。
- 强化学习:在这种情况下,智能体通过与环境交互并获得奖励来进行学习。主动学习的不同之处在于,它从 oracle 那里寻求静态的真值标签,而不是优化一连串动作以获得奖励。
Link to this section与 MLOps 的集成#
有效实施主动学习需要一个强大的机器学习运维 (MLOps) 流水线。你需要基础设施来管理数据版本控制、触发重训练任务,并向人类提供标注界面。与 Ultralytics 生态系统 集成的工具允许用户在推理、数据管理和训练之间无缝切换。例如,使用自定义训练脚本可以让开发者快速将新的主动学习数据批次纳入到他们的 YOLO 模型中。
如需进一步了解采样策略,研究人员通常会参考主动学习文献中的综合调查。此外,了解模型评估指标对于验证主动学习循环是否确实在提升性能至关重要。






