深圳尤洛视觉
深圳
立即加入
词汇表

数据预处理

掌握机器学习的数据预处理。学习诸如清理、缩放和编码等技术,以提高模型的准确性和性能。

数据预处理是机器学习(ML)流程中的一个关键步骤,涉及清洗、转换和组织原始数据,使其适合训练和构建模型。来自现实世界的原始数据通常是不完整、不一致的,并且可能包含错误。预处理将这些混乱的数据转换为干净、结构良好的格式,这对于模型有效学习至关重要。模型预测的质量高度依赖于训练数据的质量,这使得数据预处理成为在AI系统中实现高准确率和可靠性能的基础实践。

数据预处理中的关键任务

数据预处理是一个广泛的术语,包含各种准备数据的技术。具体步骤取决于数据集和ML任务,但常见任务包括:

  • 数据清洗: 这是识别并纠正或删除数据集中的错误、不一致和缺失值的过程。这可能涉及使用统计方法填充缺失数据或删除重复条目。干净的数据是任何可靠模型的基石。
  • 数据转换: 这涉及更改数据的比例或分布。一种常见的技术是归一化,它将数值特征缩放到标准范围(例如,0 到 1),以防止具有较大比例的特征在学习过程中占据主导地位。您可以从scikit-learn 预处理文档中了解有关各种缩放方法的更多信息。
  • 特征工程: 这是从现有特征创建新特征以提高模型性能的创造性过程。这可能涉及组合特征、分解特征或使用领域知识来提取更有意义的信息。一个相关的概念是 特征提取,它会自动降低数据的维度。
  • 编码分类数据: 许多 ML 算法需要数值输入。预处理通常涉及通过 one-hot 编码等技术将分类数据(如文本标签)转换为数值格式。
  • 调整大小和增强:计算机视觉 (CV)中,预处理包括将图像调整为统一的尺寸。之后还可以进行数据增强,通过创建图像的修改版本来人为地扩展数据集。

真实世界的AI/ML应用

数据预处理是所有AI领域中的普遍要求。其应用对于简单和复杂的任务的成功至关重要。

  1. 医学图像分析: 在训练YOLO模型以检测来自脑肿瘤数据集等数据集的MRI扫描中的肿瘤之前,必须对图像进行预处理。这包括对像素强度值进行归一化以解决扫描设备中的差异,将所有图像调整为模型主干网络所需的一致输入大小,以及清理数据集以删除损坏的文件或错误标记的示例。这确保了卷积神经网络 (CNN)学习模型的真实病理特征,而不是成像中的变化。您可以在我们的关于使用YOLO进行肿瘤检测的博客中了解更多信息。
  2. 人工智能驱动的零售预测: 对于预测 零售 业客户需求的模型,原始销售数据通常包含缺失的交易记录、不一致的产品命名以及规模差异很大的特征(例如,“商品价格”与“商品销售数量”)。 此处的预处理包括估算缺失的销售数据、标准化产品名称以及标准化数值特征,以便 预测建模 算法可以有效地衡量每个因素的重要性。 业务预处理概述 重点介绍了这些步骤。

数据预处理 vs. 相关概念

区分数据预处理和其他相关的数据管理术语是有帮助的。

  • 数据清洗: 如前所述,数据清洗是数据预处理的子集。预处理是为模型准备数据的整个过程,而清洗则专门侧重于修复错误、处理缺失值以及消除原始数据集中的不一致之处。
  • 数据增强: 数据增强是一种用于人为增加训练数据大小的技术。 虽然它是准备用于训练的数据的一部分,但它通常在原始数据集上完成诸如清理和调整大小之类的初始预处理步骤之后应用。 增强的目标是提高模型的泛化能力,而预处理旨在使原始数据可用。
  • 数据分析: 数据分析是一个更广泛的领域,涉及检查数据集以得出结论并支持决策。 数据预处理是数据分析工作流程中基础的第一步,该工作流程还包括探索性数据分析 (EDA)、建模和数据可视化

诸如 Ultralytics HUB 这样的平台可以帮助管理数据集并简化机器学习生命周期,从准备数据到模型部署关于预处理标注数据的指南提供了更多实践见解。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板