敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

特征工程

通过专业的特征工程提高机器学习的准确性。学习创建、转换和选择有影响力的特征的技术。

特征工程是利用领域知识来选择、创建和转换原始数据,使其成为能够更好地代表预测模型底层问题的特征的过程。它是 机器学习 (ML) 流程中至关重要且通常耗时的步骤,因为特征的质量直接影响结果模型的性能和准确性。有效的特征工程可能是平庸模型和高度准确模型之间的区别,通常比选择不同的算法或广泛的超参数调整产生更显著的性能提升。

## 特征工程流程

特征工程既是一门艺术,也是一门科学,它将领域专业知识与数学技术相结合。这个过程可以分解为几个常见的活动,通常使用诸如 scikit-learn 的 preprocessing 模块 这样的库或用于 自动化特征工程 的专用工具进行管理。

  • 特征创建: 这涉及从现有特征创建新特征。例如,在零售数据集中,您可以从“客户注册日期”中减去“购买日期”以创建“客户忠诚度持续时间”特征。在时间序列分析中,您可以从时间戳派生出诸如移动平均线或季节性之类的特征。
  • 转换: 通常需要转换原始数据以满足机器学习算法的假设。这包括缩放数值特征、应用对数转换来处理倾斜数据,或使用诸如分箱之类的技术将数字分组到类别中。
  • 编码: 许多 ML 模型无法直接处理分类数据。编码涉及将基于文本的类别转换为数值表示。常见的方法包括 one-hot 编码(其中每个类别值都转换为一个新的二进制列)和标签编码。
  • 特征选择: 并非所有特征都有用。有些可能是多余的或不相关的,引入的噪声可能导致过拟合。特征选择旨在选择最相关的特征子集,以提高模型性能并降低计算成本。

## 真实世界的应用

特征工程的影响在许多行业中都很明显。其有效性通常取决于深入的领域知识,以创建真正捕捉预测信号的特征。

  1. 信用评分: 在金融领域,原始客户数据可能包括收入、年龄和贷款历史。特征工程师可能会创建新的变量,如“债务收入比”(总债务除以总收入)或“信用利用率”(信用卡余额除以信用额度)。与单独的原始数字相比,这些工程化的特征可以更清晰地反映一个人的财务状况,从而产生更准确的信用风险模型。
  2. 预测性维护:制造业中,机器上的传感器会产生大量的原始数据流,如振动、温度和转速。 为了预测故障,工程师可能会创建诸如“过去 24 小时的温度滚动平均值”或“振动标准差”之类的特征。 这些特征可以揭示在机械故障之前出现的细微退化模式,从而实现主动维护并防止代价高昂的停机。

## 特征工程与相关概念

区分特征工程与 AI 和数据科学中的相关术语非常重要。

  • 特征工程 vs. 特征提取 特征工程是一个很大程度上依赖于手动的过程,它基于直觉和专业知识来创建新特征。特征提取通常是将数据转换为一组缩减的特征的自动化过程。在深度学习中,诸如卷积神经网络 (CNN)之类的模型会自动执行特征提取,从而无需人工干预即可从原始像素数据中学习分层特征(边缘、纹理、形状)。
  • 特征工程 vs. 嵌入 (Embeddings) 嵌入是一种复杂的、学习到的特征表示形式,在 NLP 和计算机视觉中很常见。模型不是手动创建特征,而是学习一个密集向量,该向量捕获项目(如单词或图像)的语义含义。因此,嵌入是自动特征学习的结果,而不是手动工程。
  • 特征工程 vs. 数据预处理 数据预处理是一个更广泛的类别,包括特征工程作为其关键步骤之一。它还包括其他基本任务,如数据清理(处理缺失值和异常值)和准备用于训练的数据集

虽然 Ultralytics YOLO 模型中的现代架构可以自动执行基于图像的任务(如目标检测实例分割)的特征提取,但特征工程的原则仍然是根本。了解如何有效地表示数据对于调试模型、提高数据质量以及解决涉及将视觉数据与结构化数据相结合的复杂问题至关重要。Ultralytics HUB 等平台提供了管理整个生命周期的工具,从数据集准备到模型部署

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板