深圳Yolo 视觉
深圳
立即加入
词汇表

数据清洗

掌握数据清洗以提高 AI 模型精度。学习去除错误、处理缺失值以及为 Ultralytics YOLO26 准备干净数据集的技术。

数据清洗是detect和纠正(或移除)记录集、表或数据库中损坏、不准确或不相关记录的关键过程。在人工智能 (AI)机器学习 (ML)领域,这一步骤通常被认为是工作流程中最耗时但必不可少的部分。在YOLO26等模型能够有效学习识别物体之前,训练数据必须清除错误,以防止“垃圾进,垃圾出”现象,即低质量输入导致不可靠输出。

数据完整性在AI中的重要性

高性能的计算机视觉模型严重依赖于其所使用数据集的质量。如果数据集包含错误标注的图像、重复项或损坏的文件,模型将难以泛化模式,导致过拟合或较低的推理精度。有效的数据清洗提高了预测模型的可靠性,并确保算法从有效信号而非噪声中学习。

常见数据清洗技术

实践者采用各种策略,使用诸如用于表格数据的 Pandas 或专用视觉工具来优化他们的数据集。

  • 处理缺失值:这包括删除含有缺失数据的记录,或使用插补技术根据统计平均值或最近邻居来填补空缺。
  • 移除重复项:训练集中的重复图像可能会无意中使模型产生偏差。移除它们可确保模型不会记住特定示例,有助于减轻 数据集偏差
  • 异常值检测:识别和处理显著偏离常态的异常离群值至关重要,因为这些可能会扭曲统计分析和模型权重。
  • 结构修复:这包括修复类别标签中的拼写错误(例如,纠正“Car”与“car”的差异),以确保类别一致性

实际应用

数据清洗在部署AI的各个行业中都至关重要。

  • 医学图像分析:在 医疗 AI 应用 中,数据集通常包含带有伪影、不正确的患者元数据或不相关背景噪声的扫描。清理这些数据可确保 医学图像分析 模型仅关注与诊断相关的生物标记。
  • 零售库存管理:对于零售AI,产品数据集可能包含过时商品或宽高比不正确的图像。清理这些数据集可确保目标检测模型能够准确识别库存水平,并减少实际环境中的误报。

区分数据清洗与预处理

虽然数据清洗和 数据预处理 经常互换使用,但它们是不同的。数据清洗侧重于修复错误和移除“不良”数据。相比之下,预处理则涉及将干净数据转换为适合模型的格式,例如 图像大小调整、归一化,或应用 数据增强 以增加多样性。

自动化质量检查

现代工作流程,例如Ultralytics Platform上提供的那些,集成自动化检查以在训练开始前识别损坏的图像或标签不一致。下面是一个简单的python示例,演示如何使用标准Pillow库检查和识别损坏的图像文件,这是在将数据输入到YOLO26等模型之前的一个常见步骤。

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

让我们一起共建AI的未来!

开启您的机器学习未来之旅