术语表

数据清理

掌握人工智能和 ML 项目的数据清理。学习修复错误、提高数据质量和有效提升模型性能的技术!

数据清理是指从数据集中识别、纠正或删除损坏、不准确、不完整或不一致数据的过程。这是任何机器学习(ML)工作流程中至关重要的第一步,因为训练数据的质量直接决定了生成模型的性能和可靠性。遵循 "垃圾进,垃圾出 "的原则,数据清理可以确保Ultralytics YOLO等模型在准确一致的信息基础上进行训练,从而提高预测的准确性和可信度。如果不进行适当的清理,数据中的潜在问题会导致结果偏差和模型泛化不良。

关键数据清理任务

清理数据的过程涉及多个不同的任务,旨在解决不同类型的数据质量问题。这些任务通常是反复进行的,可能需要特定领域的知识。

  • 处理缺失值:数据集通常包含缺失条目,可通过删除不完整记录或使用平均值、中位数或更高级的预测模型等统计方法估算(填补)缺失值来解决。处理缺失数据指南可提供更多见解。
  • 更正不准确的数据:这包括修正排版错误、测量不一致(如磅与公斤)以及与事实不符的信息。数据验证规则通常用于标记这些错误。
  • 删除重复记录:重复记录会给某些数据点带来不应有的权重,从而给模型带来偏差。识别并删除这些重复条目是一个标准步骤。
  • 管理异常值:异常值是指与其他观察结果有明显偏差的数据点。根据异常值产生的原因,可能需要对其进行移除、校正或转换,以防止其对模型训练过程产生负面影响。为此,离群值检测技术被广泛应用。
  • 数据标准化:这包括确保数据符合一致的格式。例如,将日期格式、文本格式(如将所有文本转换为小写)和单位转换标准化。一致的数据质量标准是成功的关键。

真实世界的人工智能/移动语言应用

  1. 医学图像分析:在脑肿瘤数据集等数据集上训练物体检测模型时,数据清理至关重要。这一过程包括删除损坏或低质量的图像文件,将所有图像标准化为一致的分辨率和格式,以及验证患者标签和注释是否正确。这能确保模型从清晰、可靠的信息中学习,而这对于开发可靠的医疗人工智能诊断工具至关重要。美国国家生物医学成像和生物工程研究所(NIBIB)强调了高质量数据在医学研究中的重要性。
  2. 用于零售库存管理的人工智能:在人工智能驱动的零售业中,计算机视觉模型利用摄像头馈送监控货架库存。有必要进行数据清理,以过滤掉模糊的图像,移除产品被购物者遮挡的画面,并从多个摄像头角度消除重复的产品数量。纠正这些问题可确保库存系统准确了解库存水平,从而实现更智能的补货并减少浪费。谷歌云等公司提供的分析解决方案将数据质量放在首位。

数据清理与相关概念

必须将数据清理与相关的数据准备步骤区分开来:

  • 数据预处理:这是一个更宽泛的术语,包括数据清理,但也包括其他转换,以便为 ML 模型准备数据,如归一化(缩放数值特征)、编码分类变量和特征提取。清理侧重于修复错误,而预处理侧重于为算法格式化数据。更多详情,请参阅Ultralytics 注释数据预处理指南
  • 数据标签:这是在原始数据中添加信息标签或注释(标签)的过程,例如在图像中围绕对象绘制边框,用于监督学习。数据清理可能涉及纠正质量检查过程中发现的错误标签,但它与最初的标记行为不同。数据收集和注释指南》提供了有关标签的见解。
  • 数据扩充:这种技术通过创建现有数据的修改副本(如旋转图像、改变亮度),人为增加训练数据集的大小和多样性。数据扩增的目的是提高模型的通用性和鲁棒性,而数据清理的重点是提高原始数据的质量。了解更多信息,请参阅《数据增强终极指南》

数据清理是一项基础性工作,通常需要反复进行,通过确保底层数据的正确性,它能显著提高人工智能系统的可靠性和性能。在基于 Python 的人工智能工作流程中,Pandas 库等工具通常用于数据操作和清理任务。通过严格的清理确保数据质量对于开发值得信赖的人工智能至关重要,尤其是在处理复杂的计算机视觉(CV)任务或COCOImageNet 等大规模基准数据集时Ultralytics HUB等平台有助于在整个项目生命周期内管理和维护高质量的数据集。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板