了解基准数据集如何通过实现公平的模型评估、可重复性和机器学习的进步来推动人工智能创新。
基准数据集是机器学习(ML)中使用的标准化高质量数据集,用于以公平、可重现的方式评估和比较不同算法和模型的性能。这些数据集经过精心策划,被研究界广泛接受,是衡量物体检测或图像分类等特定任务进展的共同基础。通过用相同的数据和评估指标测试模型,研究人员和开发人员可以客观地确定哪种方法更有效、更快或更高效。使用基准是推动人工智能(AI)技术发展的基础。
在快速发展的计算机视觉(CV)领域,基准数据集是不可或缺的。它们为评估模型改进和创新提供了稳定的基准。如果没有基准数据集,就很难知道新的模型架构或训练技术是否真正代表了进步,或者其性能是否只是因为在不同的、可能更简单的数据集上进行了测试。公共排行榜通常与ImageNet 大型视觉识别挑战赛 (ILSVRC) 等挑战赛相关联,利用这些数据集促进良性竞争并透明地跟踪进展。这一过程鼓励开发更强大、更通用的模型,这对实际模型部署至关重要。
必须将基准数据集与 ML 生命周期中使用的其他数据拆分区分开来:
虽然基准数据集通常用作标准化测试集,但其主要目的更为广泛:为整个研究界提供一个共同的比较标准。许多基准数据集都在 "Papers with Code"等平台上列出并进行跟踪,该平台为各种 ML 任务提供排行榜。其他著名的数据集包括谷歌的Open Images V7和Pascal VOCchallenge。对于任何构建可靠的人工智能系统的人来说,访问此类高质量计算机视觉数据集都是必不可少的。