敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

基准数据集

了解基准数据集如何通过实现公平的模型评估、可重复性和机器学习的进步来推动 AI 创新。

基准数据集是 机器学习 (ML) 中使用的一种标准化、高质量的数据集,用于以公平、可重复的方式评估和比较不同算法和模型的性能。这些数据集经过精心策划并被研究界广泛接受,可作为衡量 目标检测图像分类 等特定任务进展的共同基础。通过针对相同的数据和评估指标测试模型,研究人员和开发人员可以客观地确定哪些方法更有效、更快或更高效。基准的使用对于推进 人工智能 (AI) 的最先进技术至关重要。

基准测试的重要性

在快速发展的计算机视觉 (CV)领域,基准数据集是不可或缺的。它们为评估模型改进和创新提供了稳定的基线。如果没有它们,就很难知道新的模型架构或训练技术是否真正代表了一种进步,或者其性能仅仅是由于在不同的、可能更容易的数据集上进行测试。公共排行榜通常与ImageNet Large Scale Visual Recognition Challenge (ILSVRC)等挑战相关联,它们使用这些数据集来促进健康的竞争并透明地跟踪进展。这个过程鼓励开发更强大和更通用的模型,这对于实际的模型部署至关重要。

真实世界的例子

  1. 比较目标检测模型:当 Ultralytics 开发像 YOLO11 这样的新模型时,其性能会在标准基准数据集(如 COCO)上进行严格测试。通过诸如 平均精度均值 (mAP) 等指标衡量的结果将与以前的版本(YOLOv8YOLOv10)和其他最先进的模型进行比较。这些模型比较可帮助用户选择最适合其需求的模型。诸如 Ultralytics HUB 之类的平台允许用户训练模型并在自定义数据上对其进行基准测试。
  2. 推进自动驾驶技术: 开发自动驾驶汽车技术的公司严重依赖 ArgoversenuScenes 等基准数据集。这些数据集包含复杂的城市驾驶场景,其中包含针对汽车、行人和骑自行车者的详细标注。通过在这些基准数据集上评估其感知模型,公司可以衡量检测精度、跟踪可靠性和整体系统鲁棒性的改进,这对于确保自动驾驶汽车人工智能的安全性至关重要。

基准与其它数据集

务必区分基准数据集与 ML 生命周期中使用的其他数据分割:

  • 培训数据:用于根据输入示例及其相应标签调整模型参数,从而对模型进行训练。这通常是数据的最大部分。数据扩充等技术通常应用于此。
  • 验证数据:在训练过程中用于调整模型超参数(如学习率或架构选择),并提供对模型技能的无偏估计。它有助于防止对训练数据的过度拟合
  • 测试数据:模型完全训练完成使用,对其在未见数据上的性能进行无偏见的最终评估。

虽然基准数据集通常用作标准化测试集,但其主要目的更为广泛:为整个研究界提供一个共同的比较标准。许多基准数据集都在 "Papers with Code"等平台上列出并进行跟踪,该平台为各种 ML 任务提供排行榜。其他著名的数据集包括谷歌的Open Images V7和 Pascal VOC challenge。对于任何构建可靠的人工智能系统的人来说,访问此类高质量计算机视觉数据集都是必不可少的。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板