深圳Yolo 视觉
深圳
立即加入
词汇表

特征工程

探索特征工程以提升模型性能。学习缩放和数据增强等技术,以优化Ultralytics YOLO26,实现更高准确性。

特征工程是将原始数据转换为有意义的输入,以提高机器学习模型性能的过程。它涉及利用领域知识来选择、修改或创建新变量(即特征),以帮助算法更好地理解数据中的模式。尽管现代深度学习架构(如卷积神经网络 (CNN))能够自动学习特征,但显式特征工程在许多工作流程中仍然是关键一步,特别是在处理结构化数据或尝试优化边缘设备上的模型效率时。通过优化输入数据,开发人员通常可以使用更简单的模型实现更高的准确性,从而减少对大量计算资源的需求。

特征工程在AI中的作用

人工智能 (AI)的背景下,原始数据很少能直接用于处理。图像可能需要调整大小,文本可能需要分词,表格数据通常包含缺失值或不相关的列。特征工程弥合了原始信息与算法所需的数学表示之间的鸿沟。有效的工程可以突出模型可能遗漏的关键关系,例如,将“距离”和“时间”结合起来创建“速度”特征。这个过程与数据预处理密切相关,但预处理侧重于清洗和格式化,特征工程则侧重于创造性增强以提升预测能力。

对于计算机视觉任务,特征工程已显著发展。传统方法涉及手动设计描述符,如尺度不变特征变换 (SIFT),以识别边缘和角点。如今,YOLO26等深度学习模型在其隐藏层中执行自动化特征提取。然而,工程在数据集准备中仍然发挥着至关重要的作用,例如生成合成数据或应用数据增强技术(如马赛克和MixUp)以使模型在训练期间接触到更鲁棒的特征变体。

常见技术与应用

特征工程涵盖了针对特定问题和数据类型量身定制的广泛策略。

  • 降维:主成分分析(PCA)这样的技术在保留关键信息的同时减少变量数量,防止高维数据集中的过拟合
  • 编码分类变量:算法通常需要数值输入。像独热编码这样的方法将分类标签(例如,“红色”,“蓝色”)转换为模型可以处理的二进制向量。
  • 归一化与缩放:将特征缩放到标准范围,可以确保具有较大数量级(如房价)的变量不会主导具有较小范围(如房间数量)的变量,这对于神经网络中的基于梯度的优化至关重要。
  • 分箱与离散化:将连续值分组到不同的“箱”(例如,年龄组)中,可以帮助模型更有效地处理异常值并捕获非线性关系。

真实世界的例子

特征工程应用于各个行业,以解决复杂问题。

  1. 制造业中的预测性维护:智能制造中,传感器从机械设备收集原始的振动和温度数据。工程师可能会创建表示温度“变化率”或振动强度“滚动平均值”的特征。这些经过工程处理的特征使异常检测模型能够提前数天预测设备故障,而不仅仅是对当前的传感器读数做出反应。
  2. 信用风险评估: 金融机构利用特征工程评估贷款资格。 他们可能不再仅仅查看原始的“收入”数字,而是构建“债务收入比” 或“信用使用率”等特征。这些派生特征提供了借款人 财务状况更细致的视图,从而实现更准确的 风险分类

代码示例:自定义特征增强

在计算机视觉中,我们可以通过增强图像来“工程化”特征,以模拟不同的环境条件。这有助于像...这样的模型 YOLO26 更好地泛化。以下示例演示了如何使用... ultralytics 工具,这迫使模型学习结构特征,而不是仅仅依赖颜色。

import cv2
from ultralytics.data.augment import Albumentations

# Load an example image using OpenCV
img = cv2.imread("path/to/image.jpg")

# Define a transformation pipeline to engineer new visual features
# Here, we convert images to grayscale with a 50% probability
transform = Albumentations(p=1.0)
transform.transform = A.Compose([A.ToGray(p=0.5)])

# Apply the transformation to create a new input variation
augmented_img = transform(img)

# This process helps models focus on edges and shapes, improving robustness

与相关术语的区别

将特征工程与类似概念区分开来,有助于避免工作流程讨论中的混淆。

  • 特征工程与特征提取:虽然两者经常互换使用,但还是有细微差别的。 特征工程指的是根据领域知识,手动、创造性地构建新输入的过程。 领域知识构建新的输入。相比之下 特征提取通常指自动 方法或数学投影(如 PCA),可将高维数据提炼为密集的表示形式。在 深度学习(DL)中,层 卷积神经网络(CNN) 通过学习边缘和纹理过滤器来执行自动特征提取。
  • 特征工程与嵌入在现代 在现代自然语言处理(NLP)中,人工创建特征(如计算词频)已在很大程度上被 嵌入。嵌入是由模型自身学习的稠密向量 嵌入是模型自身学习的密集向量表示,用于捕捉语义。嵌入是特征的一种形式、 它们是通过 自动机器学习(AutoML) 过程学习的,而非明确的人工 "设计"。

通过掌握特征工程,开发人员可以构建不仅更准确而且更高效的模型,只需要更少的计算能力即可实现高性能。Ultralytics Platform等工具通过提供直观的数据集管理和模型训练界面为此提供了便利,允许用户快速迭代其特征策略。

让我们一起共建AI的未来!

开启您的机器学习未来之旅