敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

高质量计算机视觉数据集的重要性

Abirami Vina

4 分钟阅读

2024年12月16日

加入我们,一起探索构建计算机视觉模型时对高质量数据的需求。了解数据质量如何影响模型性能。

截至 2019 年,企业 人工智能 (AI) 的采用率 比过去四年增长了 270%。 这种增长推动了计算机视觉 (CV) 应用的快速集成——这是一种 AI 系统,使机器能够解释和分析来自周围世界的视觉数据。 这些应用为各种技术提供支持,从检测 医学影像 中的疾病和支持自动驾驶汽车,到优化交通运输中的交通流量和加强安全系统中的监控。 

诸如 Ultralytics YOLO11 之类的尖端计算机视觉模型的卓越准确性和无与伦比的性能在很大程度上推动了这种指数级增长。然而,这些模型的性能在很大程度上取决于用于训练、验证和测试模型的数据的质量和数量。 

如果没有足够的高质量数据,计算机视觉模型可能难以有效地训练和微调以满足行业标准。在本文中,我们将探讨数据在创建计算机视觉模型中的重要作用,以及为什么高质量数据在计算机视觉中如此重要。我们还将介绍一些技巧,以帮助您在训练自定义计算机视觉模型时创建高质量的数据集。让我们开始吧!

数据在构建计算机视觉模型中的作用

计算机视觉模型可以在大量的图像和视频 数据集 上进行训练,以识别模式并做出准确的预测。例如,一个 目标检测模型 可以在数百甚至数千个标记图像和视频上进行训练,以准确识别目标。 

这种训练数据的质量和数量会影响模型的性能。 

由于计算机视觉模型只能从它们接触到的数据中学习,因此提供高质量的数据和多样化的示例对于它们的成功至关重要。如果没有足够且多样化的数据集,这些模型可能无法准确分析真实世界的场景,并可能产生有偏差或不准确的结果。 

这就是为什么清楚地了解数据在模型训练中的作用非常重要。在我们了解高质量数据的特征之前,让我们先了解一下在训练计算机视觉模型时可能遇到的数据集类型。

计算机视觉数据集的类型

计算机视觉中,训练过程中使用的数据分为三种类型,每种类型都有特定的用途。以下快速浏览每种类型:

  • 训练数据:这是用于从头开始训练模型的主要数据集。它由带有预定义标签的图像和视频组成,允许模型学习模式并识别对象。
  • 验证数据:这是一组用于检查模型在训练过程中表现如何的数据。它有助于确保模型在新数据、未见过的数据上正常工作。
  • 测试数据:用于评估训练模型最终性能的独立数据集。它检查模型在新数据、未见过的数据上的预测效果。
__wf_reserved_inherit
图 1. 数据在计算机视觉中是如何分类的。

高质量计算机视觉数据集的 5 大特征

无论数据集类型如何,高质量的数据对于构建成功的计算机视觉模型至关重要。 以下是使数据集具有高质量的一些关键特征:

  • 准确性:理想情况下,数据应紧密反映真实世界的场景,并包含正确的标签。例如,在医疗保健领域的视觉AI中,X射线或扫描图像必须被准确标记,以帮助模型正确学习。 
  • 多样性:一个好的数据集包含各种示例,以帮助模型在不同情况下表现良好。例如,如果一个模型正在学习检测汽车,则数据集应包括不同形状、大小和颜色的汽车在各种设置(白天、夜晚、雨天等)中。
  • 一致性: 高质量的数据集遵循统一的格式和质量标准。 例如,图像应具有相似的分辨率(而不是一些模糊而另一些清晰),并且经过相同的预处理步骤,例如调整大小或颜色调整,因此模型可以从一致的信息中学习。
  • 及时性:定期更新的数据集可以跟上现实世界的变化。假设您正在训练模型以检测所有类型的车辆。如果引入了新的车辆(如电动滑板车),则应将其添加到数据集中,以确保模型保持准确和最新。
  • 隐私:如果数据集包含敏感信息(如人的照片),则必须遵守隐私规则。诸如匿名化(删除可识别的详细信息)和数据掩码(隐藏敏感部分)等技术可以保护隐私,同时仍然可以安全地使用数据

低质量数据带来的挑战

虽然理解高质量数据的特性很重要,但同样重要的是要考虑低质量数据如何影响您的计算机视觉模型。

过拟合和欠拟合等问题会严重影响模型性能。过拟合发生在模型在训练数据上表现良好,但在新的或未见过的数据上表现不佳时,通常是因为数据集缺乏多样性。另一方面,欠拟合发生在数据集没有为模型提供足够的示例或质量来学习有意义的模式时。为了避免这些问题,必须维护多样化、无偏见和高质量的数据集,以确保在训练和实际应用中的可靠性能。

__wf_reserved_inherit
图 2. 欠拟合与过拟合。

低质量的数据也会使模型难以从原始数据中提取和学习有意义的模式,这个过程称为特征提取。如果数据集不完整、不相关或缺乏多样性,模型可能难以有效地执行。 

有时,低质量的数据可能是简化数据的结果。 简化数据有助于节省存储空间并降低处理成本,但过度简化会删除模型良好运行所需的重要细节。 这就是为什么在整个计算机视觉过程中,从收集到部署,保持高质量的数据如此重要。 根据经验,数据集应包括基本特征,同时保持多样性和准确性,以保证可靠的模型预测。

__wf_reserved_inherit
图 3. 理解特征提取。

维护计算机视觉数据集质量的技巧

现在我们已经了解了高质量数据的重要性以及低质量数据的影响,让我们探讨如何确保您的数据集符合高标准。

这一切都始于可靠的数据收集。使用众包、来自不同地理区域的数据和合成数据生成等多种来源减少偏差,并帮助模型处理真实场景。收集数据后,预处理至关重要。诸如将像素值缩放到一致范围的归一化以及应用旋转、翻转和缩放等变换的增强等技术可增强数据集。这些步骤有助于您的模型更好地泛化并变得更强大,从而降低过拟合的风险。

正确分割数据集是另一个关键步骤。一种常见的方法是分配 70% 的数据用于训练,15% 用于验证,15% 用于测试。仔细检查这些集合之间没有重叠,可以防止数据泄漏,并确保准确的模型评估。

__wf_reserved_inherit
4. 训练、验证和测试之间常见的数据分割。

您还可以使用YOLO11 等预训练模型来节省时间和计算资源。YOLO11 在大型数据集上训练,专为各种计算机视觉任务而设计,可以在您的特定数据集上进行微调,以满足您的需求。通过根据您的数据调整模型,您可以避免过拟合并保持强大的性能。 

计算机视觉数据集的未来展望

人工智能社区传统上侧重于通过构建具有更多层的更深层模型来提高性能。然而,随着人工智能的不断发展,重点正在从优化模型转移到提高数据集的质量。通常被称为“人工智能之父”的吴恩达认为,“人工智能世界在本十年需要经历的最重要的转变将是转向以数据为中心的人工智能。” 

这种方法强调通过提高标签准确性、移除噪声样本和确保多样性来优化数据集。对于计算机视觉而言,这些原则对于解决诸如偏差和低质量数据等问题至关重要,从而使模型能够在实际场景中可靠地运行。

展望未来,计算机视觉的进步将依赖于创建更小、更高质量的数据集,而不是收集大量数据。正如吴恩达所说,“改进数据不是一次性的预处理步骤;它是机器学习模型开发迭代过程的核心部分。”通过关注以数据为中心的原则,计算机视觉将继续变得更易于访问、更高效,并在各个行业中产生更大的影响。

主要要点

数据在视觉模型的整个生命周期中起着至关重要的作用。从数据收集到预处理、训练、验证和测试,数据的质量直接影响模型的性能和可靠性。通过优先考虑高质量的数据和准确的标注,我们可以构建稳健的计算机视觉模型,从而提供可靠而精确的结果。 

在我们迈向数据驱动的未来之际,必须解决伦理问题,以减轻与偏见和隐私法规相关的风险。最终,确保数据的完整性和公平性是释放计算机视觉技术全部潜力的关键。

加入我们的社区,并查看我们的GitHub仓库,以了解更多关于人工智能的信息。查看我们的解决方案页面,探索更多人工智能在农业制造业等领域的应用。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板