数据预处理
掌握机器学习的数据预处理。学习诸如清理、缩放和编码等技术,以提高模型的准确性和性能。
数据预处理是机器学习管道中至关重要的初始阶段,在这一阶段中,原始数据被转换成一种
在这一阶段,原始数据被转换成干净、可理解的格式,供算法使用。现实世界的数据往往不完整、不一致,而且充斥着错误或异常值。
错误或异常值。如果模型是在这种有缺陷的输入上训练出来的,其结果
预测建模很可能会产生
这种现象通常被称为 "垃圾进,垃圾出"。通过系统地
解决这些问题,预处理可确保
训练数据的质量,这对实现最佳模型准确性和稳定性至关重要。
这对实现最佳模型准确性和稳定性至关重要。
预处理的核心技术
预处理的具体步骤因数据类型(文本、图像或表格数据)而异,但一般包括几项基础任务。
但一般包括几项基础任务。
-
数据清理:这包括
处理缺失值、纠正噪声数据以及解决不一致问题。技术可能包括
等工具,完全删除损坏的记录。
Pandas.
-
归一化和缩放:
当特征的尺度(如年龄与收入)相差悬殊时,算法往往表现不佳。归一化
将数字列调整为一个共同的尺度,如 0 到 1,以防止较大的数值主导梯度下降过程。
梯度下降过程。您可以在
缩放策略
Scikit-learn 文档中了解更多缩放策略。
-
编码:机器学习模型通常需要数字输入。分类数据(如
"红"、"绿"、"蓝")必须转换成数字,使用的方法包括
单次编码或标签
编码。
-
降维:主成分分析(PCA)等技术
主成分分析(PCA)
等技术可以减少输入变量的数量,只保留最基本的信息,从而防止过度拟合,加快训练速度。
过拟合,加快训练速度。
-
图像大小调整:在
在计算机视觉(CV)中,图像通常必须调整为固定尺寸(如 640x640 像素
调整为固定尺寸(如 640x640 像素),以匹配卷积神经网络(CNN)的输入层。
卷积神经网络 (CNN)。
实际应用
数据预处理在各行各业无处不在,是可靠的人工智能系统的支柱。
-
医学图像分析:
在检测核磁共振成像或 CT 扫描中的异常时,预处理至关重要。原始扫描图像的对比度和分辨率
取决于所使用的机器。预处理可将像素强度归一化并调整图像大小,以确保
人工智能代理专注于病理特征而不是技术伪影。
技术伪影。例如,请看研究人员如何
使用YOLO11 进行肿瘤检测
来提高诊断精度。
-
金融欺诈检测:在银行业,交易日志往往杂乱无章且不平衡。
预处理包括清除时间戳错误和规范交易金额。最重要的是,预处理还包括
平衡数据集--因为欺诈很少见--使用抽样技术确保
异常检测模型能有效识别
可疑活动。IBM就数据准备如何
支持这些关键业务分析。
使用Ultralytics YOLO进行预处理
现代框架通常会自动完成预处理管道的重要部分。当使用
YOLO11时,图像大小调整、像素值缩放和标签格式化等任务都是在训练过程中内部处理的。
任务。这样,开发人员就可以专注于更高层次的任务,如
模型评估和部署。
下面的示例演示了YOLO11 如何通过 imgsz 争论
在培训期间:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
区分相关概念
将数据预处理与机器学习工作流程中的类似术语区分开来很有帮助:
-
与数据增强相比:预处理
预处理是将数据格式化以便使用(如调整大小),而扩充则涉及创建新的合成变体(如旋转、翻转
例如旋转、翻转),以增加数据集的多样性和稳健性。
稳健性。您可以在我们的
数据扩增指南中了解更多信息。
-
与特征工程相比:
预处理侧重于对原始数据进行清理和格式化。特征工程是一个更具创造性的步骤,包括
从数据中推导出新的、有意义的变量(例如,从 "价格 "和 "面积 "计算出 "每平方英尺价格")。
价格 "和 "面积 "计算出 "每平方英尺价格"),以提高
模型性能。
-
数据标签标签是
手动或自动标注数据的过程(如绘制
边界框),以创建基本真相。
预处理为神经网络准备了这些标注过的图像和注释。
神经网络。
通过掌握数据预处理,工程师可为成功的人工智能项目奠定基础。
人工智能项目的基础,确保复杂的
模型,如 YOLO11和即将推出的YOLO26等复杂模型能够充分发挥其潜力。对于
管理数据集和自动化这些工作流程,Ultralytics Platform
Ultralytics 平台提供了一个统一的环境,以简化
从原始数据到部署模型的过程。