词汇表

数据清洗

掌握用于 AI 和 ML 项目的数据清洗。学习修复错误、提高数据质量并有效提升模型性能的技术！

数据清理是识别和纠正数据集中损坏、不准确或不相关记录的关键过程。以提高数据集的质量。在在机器学习（ML）领域，这一步骤是因为任何人工智能（AI）模型的可靠性人工智能（AI）模型的可靠性人工智能模型的可靠性与其学习信息的完整性直接相关。按照 "垃圾进，垃圾出 "的谚语，数据清理可确保人工智能（AI）模型的可靠性。出 "的格言，数据清理可确保先进的架构（如 Ultralytics YOLO11等先进架构在一致无误的数据基础上进行训练。数据进行训练，这对于在真实环境中实现高精度和这对于在真实世界环境中实现高精度和强大的泛化能力至关重要。

核心数据清理技术

将原始信息转化为高质量将原始信息转化为高质量的训练数据涉及多项系统性任务。这些技术可以解决可能对模型训练产生负面影响的特定错误。模型训练。

处理缺失值：不完整的数据会影响结果。从业人员通常使用估算技术来填补空缺。统计量（如平均值或中位数）来填补空缺，或者干脆完全删除不完整的记录。
删除重复条目重复条目人工智能中的偏差，人为夸大某些数据点的重要性。某些数据点的重要性。使用诸如 pandas 库等工具消除这些冗余，确保数据集的平衡。
管理异常值：严重偏离正常值的数据点被称为异常值。有些异常值很有价值，有些则是需要纠正或清除的错误。异常异常检测技术有助于识别这些异常点。
格式标准化：格式不统一（例如，混合使用 "jpg "和 "JPEG "或不同的日期样式）会混淆算法。建立统一的数据质量标准确保所有数据遵循一致的结构。
修正结构错误：这包括纠正错别字、错误标注的类别或不一致的大小写。的大小写不一致。

人工智能在现实世界中的应用

各行各业都离不开数据清理，因为数据清理的精度至关重要。

医疗诊断：在人工智能在医疗保健中的应用医疗图像中的病理。例如，当在脑肿瘤数据集进行训练时，数据清理包括去除模糊的扫描图像，确保患者元数据的匿名性和准确性，并验证肿瘤注释的准确性。精确。正如美国国家生物医学研究所（National Institute of Biomedical Medicine）指出的那样，这种严格性可以防止模型学习到误报，这对患者安全至关重要。国家生物医学成像和生物工程研究所指出，这对患者安全至关重要。
智慧农业：对于人工智能在农业中的应用利用无人机图像监测作物健康。数据清理有助于过滤掉被云层遮挡或传感器噪音遮挡的图像并纠正 GPS 坐标错误。这可确保作物健康监测系统为农民提供可靠的灌溉和病虫害防治信息。

Python 示例：验证图像完整性

计算机视觉 (CV) 计算机视觉 (CV)中常见的数据清理任务是在训练前识别并移除损坏的图像文件。损坏的图像文件。下面的代码段演示了如何使用标准的 Python 库验证图像文件。

from pathlib import Path

from PIL import Image

# Define the directory containing your dataset images
dataset_path = Path("./data/images")

# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
    try:
        # Attempt to open and verify the image file
        with Image.open(img_file) as img:
            img.verify()
    except (OSError, SyntaxError):
        print(f"Corrupt file found and removed: {img_file}")
        img_file.unlink()  # Deletes the corrupt file

数据清洗与相关概念

必须将数据清理与其他数据准备步骤区分开来。

数据预处理:这是一个更宽泛的术语，包括清理，也包括为模型格式化数据，例如规范化（缩放像素值）和调整图像大小图像大小。清理可以修复错误，而预处理则可以优化数据格式。
数据标签:这一过程包括为数据添加有意义的标签或界框。数据清理可能涉及但标签本身就是创建地面实况注释的行为，通常由即将推出的 Ultralytics Platform 等工具辅助。通常由即将推出的Ultralytics Platform 等工具辅助。
数据扩充:与改进原始数据的清理不同，扩增通过创建修改过的副本（如翻转或旋转图像）来人为地扩展数据集。修改副本（如翻转或旋转图像），人为地扩大数据集，以提高模型泛化。

在以数据为中心的人工智能方法中，确保数据集的清洁是至关重要的一步。以数据为中心的人工智能方法中至关重要的一步。从调整模型转向改进数据。干净的数据集是提高最先进模型性能的最有效方法，例如 YOLO11和未来的 YOLO26。

数据清洗

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

核心数据清理技术

人工智能在现实世界中的应用

Python 示例：验证图像完整性

数据清洗与相关概念

阅读更多此类别的内容

理解为何人机协同标注至关重要

什么是数据集蒸馏？快速概述

Oakley Meta AI眼镜正以视觉人工智能技术重新定义眼镜行业

加入Ultralytics 社区