遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Data Cleaning

掌握数据清洗以提高 AI 模型准确性。学习去除错误、处理缺失值以及为 Ultralytics YOLO26 准备干净数据集的技术。

数据清洗是检测并修正(或移除)记录集、表格或数据库中损坏、不准确或无关记录的关键流程。在人工智能 (AI)机器学习 (ML) 领域,这一步通常被认为是工作流程中最耗时但也最本质的部分。在像 YOLO26 这样的模型能够有效学会识别物体之前,必须清除训练数据中的错误,以防止出现“垃圾进,垃圾出”(Garbage In, Garbage Out)的现象,即劣质的输入会导致不可靠的输出。

Link to this sectionAI 中数据完整性的重要性#

高性能的计算机视觉模型非常依赖其所摄取数据集的质量。如果数据集包含标注错误的图像、重复项或损坏的文件,模型将难以泛化模式,从而导致过拟合或较差的推理准确度。有效的数据清洗能够提高预测模型的可靠性,并确保算法从有效的信号而非噪声中学习。

Link to this section常见的数据清洗技术#

从业者采用各种策略,使用如 Pandas(针对表格数据)或专门的视觉工具来精炼数据集。

  • 处理缺失值:这涉及移除包含缺失数据的记录,或者使用填充技术根据统计平均值或最近邻来填补空白。
  • 移除重复项:训练集中的重复图像可能会无意中使模型产生偏差。移除它们可以确保模型不会死记硬背特定的示例,从而有助于减轻数据集偏差
  • 离群点检测:识别并处理显著偏离常态的异常值离群点至关重要,因为它们会扭曲统计分析和模型权重。
  • 结构修复:这包括修复类别标签中的拼写错误(例如,修正 "Car" 与 "car" 的不一致),以确保类别的连贯性

Link to this section实际应用#

数据清洗在部署 AI 的各个行业中都起着举足轻重的作用。

  • 医学图像分析:在医疗 AI 应用中,数据集通常包含带有伪影、患者元数据错误或无关背景噪声的扫描结果。清洗这些数据可以确保医学图像分析模型专注于与诊断相关的生物标记。
  • 零售库存管理:对于零售 AI而言,产品数据集可能包含过时商品或长宽比错误的图像。清洗这些数据集可确保目标检测模型能够准确识别库存水平,并减少在实时环境中的误报。

Link to this section区分数据清洗与预处理#

虽然经常混用,但数据清洗与数据预处理截然不同。数据清洗专注于修复错误和删除“坏”数据。相比之下,预处理涉及将清洗后的数据转换为适合模型的格式,例如图像缩放、归一化,或应用数据增强以增加多样性。

Link to this section自动化质量检查#

现代工作流程(例如 Ultralytics Platform 上提供的那些)集成了自动化检查,以在训练开始前识别损坏的图像或标签不一致问题。以下是一个简单的 Python 示例,演示如何使用标准的 Pillow 库来检查并识别损坏的图像文件,这是在将数据输入像 YOLO26 这样的模型之前常见的一个步骤。

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅