术语表

基准数据集

了解基准数据集如何通过实现公平的模型评估、可重复性和机器学习的进步来推动人工智能创新。

基准数据集是机器学习(ML)中使用的标准化高质量数据集,用于以公平、可重现的方式评估和比较不同算法和模型的性能。这些数据集经过精心策划,被研究界广泛接受,是衡量物体检测图像分类等特定任务进展的共同基础。通过用相同的数据和评估指标测试模型,研究人员和开发人员可以客观地确定哪种方法更有效、更快或更高效。使用基准是推动人工智能(AI)技术发展的基础。

制定基准的重要性

在快速发展的计算机视觉(CV)领域,基准数据集是不可或缺的。它们为评估模型改进和创新提供了稳定的基准。如果没有基准数据集,就很难知道新的模型架构或训练技术是否真正代表了进步,或者其性能是否只是因为在不同的、可能更简单的数据集上进行了测试。公共排行榜通常与ImageNet 大型视觉识别挑战赛 (ILSVRC) 等挑战赛相关联,利用这些数据集促进良性竞争并透明地跟踪进展。这一过程鼓励开发更强大、更通用的模型,这对实际模型部署至关重要。

真实案例

  1. 比较物体检测模型:Ultralytics 在开发YOLO11 等新模型时,会在COCO 等标准基准数据集上对其性能进行严格测试。测试结果以平均精度(mAP)等指标来衡量,并与以前的版本(YOLOv8YOLOv10)和其他最先进的模型进行比较。这些模型比较有助于用户选择最适合其需求的模型。Ultralytics HUB等平台允许用户在自定义数据上训练模型并对其进行基准测试。
  2. 推进自动驾驶:开发自动驾驶汽车技术的公司在很大程度上依赖ArgoversenuScenes 等基准。这些数据集包含复杂的城市驾驶场景,并对汽车、行人和骑车人进行了详细注释。通过在这些基准上评估他们的感知模型,公司可以衡量在检测准确性、跟踪可靠性和整体系统鲁棒性方面的改进,这对于确保自动驾驶汽车人工智能的安全性至关重要。

基准与其他数据集

必须将基准数据集与 ML 生命周期中使用的其他数据拆分区分开来:

  • 培训数据:用于根据输入示例及其相应标签调整模型参数,从而对模型进行训练。这通常是数据的最大部分。数据扩充等技术通常应用于此。
  • 验证数据:在训练过程中用于调整模型超参数(如学习率或架构选择),并提供对模型技能的无偏估计。它有助于防止对训练数据的过度拟合
  • 测试数据:模型完全训练完成使用,对其在未见数据上的性能进行最终的、无偏见的评估。

虽然基准数据集通常用作标准化测试集,但其主要目的更为广泛:为整个研究界提供一个共同的比较标准。许多基准数据集都在 "Papers with Code"等平台上列出并进行跟踪,该平台为各种 ML 任务提供排行榜。其他著名的数据集包括谷歌的Open Images V7Pascal VOCchallenge。对于任何构建可靠的人工智能系统的人来说,访问此类高质量计算机视觉数据集都是必不可少的。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板