深圳Yolo 视觉
深圳
立即加入
词汇表

数据预处理

掌握机器学习的数据预处理。学习诸如清理、缩放和编码等技术,以提高模型的准确性和性能。

数据预处理是机器学习管道中至关重要的初始阶段,在这一阶段中,原始数据被转换成一种 在这一阶段,原始数据被转换成干净、可理解的格式,供算法使用。现实世界的数据往往不完整、不一致,而且充斥着错误或异常值。 错误或异常值。如果模型是在这种有缺陷的输入上训练出来的,其结果 预测建模很可能会产生 这种现象通常被称为 "垃圾进,垃圾出"。通过系统地 解决这些问题,预处理可确保 训练数据的质量,这对实现最佳模型准确性和稳定性至关重要。 这对实现最佳模型准确性和稳定性至关重要。

预处理的核心技术

预处理的具体步骤因数据类型(文本、图像或表格数据)而异,但一般包括几项基础任务。 但一般包括几项基础任务。

  • 数据清理这包括 处理缺失值、纠正噪声数据以及解决不一致问题。技术可能包括 等工具,完全删除损坏的记录。 Pandas.
  • 归一化和缩放: 当特征的尺度(如年龄与收入)相差悬殊时,算法往往表现不佳。归一化 将数字列调整为一个共同的尺度,如 0 到 1,以防止较大的数值主导梯度下降过程。 梯度下降过程。您可以在 缩放策略 Scikit-learn 文档中了解更多缩放策略。
  • 编码:机器学习模型通常需要数字输入。分类数据(如 "红"、"绿"、"蓝")必须转换成数字,使用的方法包括 单次编码或标签 编码。
  • 降维:主成分分析(PCA)等技术 主成分分析(PCA) 等技术可以减少输入变量的数量,只保留最基本的信息,从而防止过度拟合,加快训练速度。 过拟合,加快训练速度。
  • 图像大小调整:在 在计算机视觉(CV)中,图像通常必须调整为固定尺寸如 640x640 像素 调整为固定尺寸(如 640x640 像素),以匹配卷积神经网络(CNN)的输入层。 卷积神经网络 (CNN)

实际应用

数据预处理在各行各业无处不在,是可靠的人工智能系统的支柱。

  1. 医学图像分析 在检测核磁共振成像或 CT 扫描中的异常时,预处理至关重要。原始扫描图像的对比度和分辨率 取决于所使用的机器。预处理可将像素强度归一化并调整图像大小,以确保 人工智能代理专注于病理特征而不是技术伪影。 技术伪影。例如,请看研究人员如何 使用YOLO11 进行肿瘤检测 来提高诊断精度。
  2. 金融欺诈检测:在银行业,交易日志往往杂乱无章且不平衡。 预处理包括清除时间戳错误和规范交易金额。最重要的是,预处理还包括 平衡数据集--因为欺诈很少见--使用抽样技术确保 异常检测模型能有效识别 可疑活动。IBM就数据准备如何 支持这些关键业务分析。

使用Ultralytics YOLO进行预处理

现代框架通常会自动完成预处理管道的重要部分。当使用 YOLO11时,图像大小调整、像素值缩放和标签格式化等任务都是在训练过程中内部处理的。 任务。这样,开发人员就可以专注于更高层次的任务,如 模型评估和部署。

下面的示例演示了YOLO11 如何通过 imgsz 争论 在培训期间:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

区分相关概念

将数据预处理与机器学习工作流程中的类似术语区分开来很有帮助:

  • 数据增强相比:预处理 预处理是将数据格式化以便使用(如调整大小),而扩充则涉及创建新的合成变体(如旋转、翻转 例如旋转、翻转),以增加数据集多样性和稳健性。 稳健性。您可以在我们的 数据扩增指南中了解更多信息。
  • 特征工程相比: 预处理侧重于对原始数据进行清理和格式化。特征工程是一个更具创造性的步骤,包括 从数据中推导出新的、有意义的变量(例如,从 "价格 "和 "面积 "计算出 "每平方英尺价格")。 价格 "和 "面积 "计算出 "每平方英尺价格"),以提高 模型性能
  • 数据标签标签是 手动或自动标注数据的过程(如绘制 边界框),以创建基本真相。 预处理为神经网络准备了这些标注过的图像和注释。 神经网络

通过掌握数据预处理,工程师可为成功的人工智能项目奠定基础。 人工智能项目的基础,确保复杂的 模型,如 YOLO11和即将推出的YOLO26等复杂模型能够充分发挥其潜力。对于 管理数据集和自动化这些工作流程,Ultralytics Platform Ultralytics 平台提供了一个统一的环境,以简化 从原始数据到部署模型的过程。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入