了解基准数据集如何通过实现公平的模型评估、可重复性和机器学习的进步来推动 AI 创新。
基准数据集是一个标准化的高质量数据集,用于评估机器学习(ML)模型在以下应用中的性能 机器学习(ML)模型的性能。 以公平、可重复的方式评估机器学习(ML)模型性能。与用于内部测试的私有数据不同,基准数据集是整个研究界的公共 "衡量标准"。 的 "衡量标准"。通过在完全相同的输入上测试不同的算法,并使用完全相同的 输入并使用相同的 评估指标,开发人员可以 客观地确定哪些模型具有更高的准确性、速度或效率。这些数据集对于 跟踪计算机视觉(CV 计算机视觉 (CV)和自然语言 处理等领域取得进展的基础。
在快速发展的人工智能(AI)领域 人工智能 (AI) 新模型 "更快 "或 "更准确 "的说法,在没有共同参照点的情况下是毫无意义的。 参考。基准数据集提供了这一共同点。基准数据集通常是为应对特定挑战而策划的、 例如检测小物体或处理照明条件差的问题。流行的挑战,如 ImageNet 大规模视觉识别挑战赛 (ILSVRC)、 依靠这些数据集促进良性竞争。这种标准化确保了 模型架构的改进是真正的进步 而不是在更容易的非标准数据上进行测试的结果。
将基准数据集与标准开发周期中使用的数据拆分区分开来至关重要:
基准数据集通过建立严格的 安全和可靠性标准。
物体检测中最突出的例子是 COCO (上下文中的常见物体)数据集。当Ultralytics 发布新的 架构,如 YOLO11时,其性能会严格 基准,以验证平均精确度(mAP)的提高。 平均精度 (mAP) 的改进。这样 这样,研究人员就能清楚地看到YOLO11 与之前的迭代或其他最先进的模型相比在 在检测人、自行车和动物等日常物体方面的表现。
在汽车行业,安全至关重要。自动驾驶汽车的 自动驾驶汽车开发人员利用专门的 基准,如KITTI Vision Benchmark Suite或 Waymo 开放数据集。这些数据集包含复杂的、带注释的 城市驾驶环境,包括行人、骑车人和交通标志。通过根据这些基准评估感知系统 工程师可以量化系统在真实交通场景中的 在实际交通场景中的鲁棒性、 确保人工智能对动态危险做出正确反应。
Ultralytics 提供了内置工具,可在不同的导出格式中轻松对模型进行基准测试,例如 ONNX或 TensorRT.这有助于用户在推理延迟和准确性之间 推理延迟和准确性之间的最佳权衡 之间的最佳权衡。
下面的示例演示了如何使用Python API 对YOLO11 模型进行基准测试。此过程将评估 模型在标准数据集上的速度和准确性。
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)
基准固然重要,但并非完美无瑕。如果基准不能准确反映现实世界的多样性,就会出现一种被称为 "数据集偏差 "的现象。 基准不能准确反映现实世界的多样性。例如 面部识别基准缺乏多样性 例如,缺乏多样化人口代表性的人脸识别基准可能会导致模型在某些群体中表现不佳。此外,研究人员必须 避免 "应试教学",即专门为在基准测试中获得高分而优化模型,但却牺牲了对新的、未知的模型的泛化能力。 以牺牲对新的、未见过的数据的泛化为代价。 数据集的持续更新,如 Objects365项目中的数据集,通过增加数据集的多样性和规模,有助于缓解这些问题。 增加多样性和规模。

