深圳Yolo 视觉
深圳
立即加入
词汇表

数据清洗

掌握用于 AI 和 ML 项目的数据清洗。学习修复错误、提高数据质量并有效提升模型性能的技术!

数据清理是识别和纠正数据集中损坏、不准确或不相关记录的关键过程。 以提高数据集的质量。在 在机器学习(ML)领域,这一步骤是 因为任何人工智能(AI)模型的可靠性 人工智能(AI)模型的可靠性 人工智能模型的可靠性与其学习信息的完整性直接相关。按照 "垃圾进,垃圾出 "的谚语,数据清理可确保人工智能(AI)模型的可靠性。 出 "的格言,数据清理可确保先进的架构(如 Ultralytics YOLO11等先进架构在一致无误的数据基础上进行训练。 数据进行训练,这对于在真实环境中实现高精度和 这对于在真实世界环境中实现高精度和强大的泛化能力至关重要。

核心数据清理技术

将原始信息转化为高质量 将原始信息转化为高质量的训练数据涉及多项系统性任务。 这些技术可以解决可能对模型训练产生负面影响的特定错误。 模型训练

  • 处理缺失值:不完整的数据会影响结果。从业人员通常使用 估算技术来填补空缺 统计量(如平均值或中位数)来填补空缺,或者干脆完全删除不完整的记录。
  • 删除重复条目重复条目 人工智能中的偏差,人为夸大某些数据点的重要性。 某些数据点的重要性。使用诸如 pandas 库 等工具消除这些冗余,确保数据集的平衡。
  • 管理异常值:严重偏离正常值的数据点被称为异常值。 有些异常值很有价值,有些则是需要纠正或清除的错误。异常 异常检测技术有助于识别这些 异常点。
  • 格式标准化:格式不统一(例如,混合使用 "jpg "和 "JPEG "或 不同的日期样式)会混淆算法。建立统一的 数据质量标准 确保所有数据遵循一致的结构。
  • 修正结构错误:这包括纠正错别字、错误标注的类别或不一致的大小写。 的大小写不一致。

人工智能在现实世界中的应用

各行各业都离不开数据清理,因为数据清理的精度至关重要。

  1. 医疗诊断:在 人工智能在医疗保健中的应用 医疗图像中的病理。例如,当在 脑肿瘤数据集进行训练时,数据清理包括 去除模糊的扫描图像,确保患者元数据的匿名性和准确性,并验证肿瘤注释的准确性。 精确。正如美国国家生物医学研究所(National Institute of Biomedical Medicine)指出的那样,这种严格性可以防止模型学习到误报,这对患者安全至关重要。 国家生物医学成像和生物工程研究所指出,这对患者安全至关重要。
  2. 智慧农业:对于 人工智能在农业中的应用 利用无人机图像监测作物健康。数据清理有助于过滤掉被云层遮挡或传感器噪音遮挡的图像 并纠正 GPS 坐标错误。这可确保 作物健康监测 系统为农民提供可靠的灌溉和病虫害防治信息。

Python 示例:验证图像完整性

计算机视觉 (CV) 计算机视觉 (CV)中常见的数据清理任务是在训练前识别并移除损坏的图像文件。 损坏的图像文件。下面的代码段演示了如何使用标准的 Python 库验证图像文件。

from pathlib import Path

from PIL import Image

# Define the directory containing your dataset images
dataset_path = Path("./data/images")

# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
    try:
        # Attempt to open and verify the image file
        with Image.open(img_file) as img:
            img.verify()
    except (OSError, SyntaxError):
        print(f"Corrupt file found and removed: {img_file}")
        img_file.unlink()  # Deletes the corrupt file

数据清洗与相关概念

必须将数据清理与其他数据准备步骤区分开来。

  • 数据预处理:这是一个更宽泛的术语,包括清理,也包括为模型格式化数据,例如 规范化(缩放像素值)和调整图像大小 图像大小。清理可以修复错误,而预处理则可以优化数据格式。
  • 数据标签:这一过程包括为数据添加有意义的标签或 界框。数据清理可能涉及 但标签本身就是创建地面实况注释行为,通常由即将推出的 Ultralytics Platform 等工具辅助。 通常由即将推出的Ultralytics Platform 等工具辅助。
  • 数据扩充:与改进原始数据的清理不同,扩增通过创建修改过的副本(如翻转或旋转图像)来人为地扩展数据集。 修改副本(如翻转或旋转图像),人为地扩大数据集,以提高 模型泛化

在以数据为中心的人工智能方法中,确保数据集的清洁是至关重要的一步。 以数据为中心的人工智能方法中至关重要的一步。 从调整模型转向改进数据。干净的数据集是提高 最先进模型性能的最有效方法,例如 YOLO11和 未来的 YOLO26。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入