深圳Yolo 视觉
深圳
立即加入
词汇表

主动学习

探索主动学习,这是一种经济高效的机器学习方法,可以通过更少的标签提高准确性。了解它如何改变 AI 训练!

主动学习是机器学习(ML)中的一种策略方法,算法会主动选择最具信息量的数据点进行标注,而非被动接受预先标注的数据集。在传统的监督学习中,模型通常需要海量标注数据,而创建这些数据既耗时又耗资。 主动学习通过识别"不确定"或"困难"样本——即接近决策边界或模型信心不足的案例——优化了这一过程,仅要求人工标注者为这些特定实例添加标签。这种迭代循环使模型能够在显著减少标注样本量的同时实现高精度,对于预算有限或时间受限的项目而言极具效率优势。

主动学习循环如何运作

主动学习的核心在于一个反馈循环,常被称为 人机协同循环。模型不再 仅基于静态数据集进行一次性训练,而是通过查询与更新的循环迭代实现进化。

  1. 初始化:该过程始于一小批标注的训练数据,用于训练初始模型,例如Ultralytics
  2. 查询选择:模型评估大量无标签数据集。通过采用查询策略——最常见的是不确定性采样——它会选取预测置信度最低的图像或文本。
  3. 注释:这些高优先级样本会被发送给人类专家(在主动学习文献中常被称为"神谕")进行数据标注
  4. 重新训练:将新标注的数据添加到训练集中,并对模型进行重新训练。 更新后的模型将更擅长筛选出下一批难以辨别的样本。

实际应用

在数据丰富但标注需要专业知识或高成本的行业中,主动学习不可或缺。

  • 医学影像分析在放射学等领域,标注工作需要由委员会认证的专家完成,而这些专家的时间极其宝贵。与其让医生标注数千张清晰的扫描图像,主动学习系统可筛选出模糊病例——例如早期肿瘤或罕见异常——使专家仅需专注于真正能提升模型诊断能力的图像。
  • 自动驾驶汽车自动驾驶汽车会产生数千亿字节的视频数据。逐帧标注根本不可能实现。主动学习技术能帮助工程师识别边缘案例——例如穿着特殊服装的行人或暴雪天气下的驾驶场景,这些情况可能被标准物体检测模型忽略。通过优先处理这些罕见场景,企业既能提升安全性,又无需在重复的高速公路画面上浪费资源。

Python :过滤不确定预测

以下示例演示了Ultralytics 简单"不确定性采样"逻辑。我们加载模型,对图像进行推理,并将置信度评分低于特定阈值的图像标记出来以供人工审核。

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# List of unlabeled image paths
unlabeled_images = ["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"]

# Run inference
results = model(unlabeled_images)

# Identify samples with low confidence for active learning
uncertain_threshold = 0.6
for result in results:
    # Check if any detection confidence is below the threshold
    if result.boxes.conf.numel() > 0 and result.boxes.conf.min() < uncertain_threshold:
        print(f"Active Learning Query: {result.path} needs human labeling.")

区分相关概念

区分主动学习与类似的培训范式至关重要:

  • 半监督学习:虽然两种方法都利用无标签数据,但半监督学习会根据模型的高置信度预测自动为数据分配伪标签。相比之下,主动学习则会明确要求人类对置信度较低的预测进行输入。
  • 迁移学习:这涉及采用预训练模型(例如在 ImageNet)并将其适应于新任务的过程。 主动学习侧重于选择哪些数据进行标注,而迁移学习则侧重于 复用已学习到的特征。
  • 强化学习:在此过程中,智能体通过与环境交互并获取奖励来学习。主动学习则有所不同, 因为它寻求从预言者处获取静态基准标签, 而非通过优化动作序列来获取奖励。

与MLOps的集成

要有效实施主动学习,需要一个强大的 机器学习运维(MLOps) 管道。 您需要基础设施来管理数据版本控制、触发重新训练任务,并为人类用户提供标注界面。Ultralytics 集成的工具,能让用户在推理、数据整理和训练之间无缝切换。例如,通过自定义训练脚本,开发者可快速将新批次的自监督学习数据整合到YOLO 。

关于采样策略的进一步阅读,研究人员常参考主动学习文献中的综合性研究。此外,理解模型评估指标对于验证主动学习循环是否真正提升性能至关重要。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入