敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

测试数据

探索测试数据在人工智能中的重要性,它在评估模型性能、检测过拟合以及确保实际应用可靠性方面的作用。

在机器学习中,测试数据是数据集的一个单独的、独立的部分,用于在模型经过充分训练和调整后对其进行最终评估。此数据集充当模型的“期末考试”,提供对其在新数据(未见过的数据)上的性能的公正评估。核心原则是,模型在开发过程中绝不应从测试数据中学习或受其影响。这种严格的分离确保了在测试集上计算的性能指标(例如准确率平均精度均值 (mAP))能够真实反映模型泛化到实际场景的能力。严格的模型测试模型部署之前的关键步骤。

测试数据在 ML 生命周期中的作用

在一个典型的机器学习 (ML)项目中,数据会被仔细划分以服务于不同的目的。理解这些划分之间的区别至关重要。

  • 训练数据: 这是数据中最大的子集,用于训练模型。模型通过基于训练集中的示例调整其内部权重,迭代地学习模式、特征和关系。有效的模型创建依赖于高质量的训练数据,并遵循最佳实践,例如本模型训练技巧指南中的实践。
  • 验证数据: 这是训练过程中使用的单独数据集。其目的是提供有关模型在未见数据上的性能的反馈,这有助于超参数调整(例如,调整学习率)并防止过度拟合。这就像一个练习测试,有助于指导学习策略。评估通常使用专用的验证模式执行。
  • 测试数据: 此数据集完全隔离,直到所有训练和验证完成。它仅使用一次,以提供关于模型性能的最终、公正的报告。使用测试数据对模型进行任何进一步的调整都会使结果失效,这种错误有时被称为“数据泄露”或“应试教育”。这种最终评估对于理解Ultralytics YOLO模型等模型在部署后的表现至关重要。Ultralytics HUB等工具可以帮助管理整个项目生命周期中的这些数据集。

虽然基准数据集可以用作测试集,但其主要作用是作为比较不同模型的公共标准,通常用于学术挑战赛,例如ImageNet 大规模视觉识别挑战赛 (ILSVRC)。您可以在模型比较页面中看到这方面的例子。

实际应用

  1. 汽车行业中的人工智能: 开发人员使用数千小时的驾驶录像进行训练和验证,从而为自动驾驶汽车创建对象检测模型。在将此模型部署到车队之前,会针对测试数据集对其进行评估。此测试集将包括具有挑战性的、以前未见过的场景,例如在暴雨中的夜晚驾驶、在暴风雪中导航或检测被其他物体部分遮挡的行人。该模型在此测试集上的性能(通常使用来自 nuScenes 等基准数据集的数据)决定了它是否符合汽车行业人工智能应用所需的严格安全性和可靠性标准
  2. 医学图像分析: 一个计算机视觉 (CV)模型经过训练,可以检测来自一家医院的胸部X光图像中的肺炎迹象。为了确保它在临床上有用,必须在来自不同医院系统的一组图像上测试该模型。该测试数据将包括使用不同设备捕获的图像,来自不同患者群体的图像,以及由不同放射科医生解释的图像。评估模型在此外部测试集上的性能对于获得监管部门的批准(例如FDA)以及确认其在医疗保健领域AI中的效用至关重要。此过程有助于确保模型避免数据集偏差并在新的临床环境中可靠地执行。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板