深圳Yolo 视觉
深圳
立即加入
词汇表

特征工程

通过专业的特征工程提高机器学习的准确性。学习创建、转换和选择有影响力的特征的技术。

特征工程是将原始数据转化为有意义输入的过程,旨在提升机器学习模型的性能。该过程通过运用领域知识来选择、修改或创建新的变量(即特征),帮助算法更好地理解数据中的模式。 尽管卷积神经网络(CNN)等现代深度学习架构能够自动学习特征,但显式特征工程在许多工作流程中仍至关重要——尤其处理结构化数据或优化边缘设备模型效率时。通过优化输入数据,开发者常能以更简洁的模型实现更高精度,从而减少对海量计算资源的需求。

特征工程在人工智能中的作用

人工智能(AI)领域,原始数据 通常无法直接投入处理。图像可能需要调整尺寸,文本可能需要分词处理,而表格数据 往往存在缺失值或无关列。特征工程正是填补原始信息与算法所需数学表示之间 的桥梁。 有效的特征工程能揭示模型可能忽略的关键关联,例如将"距离"与"时间"组合生成"速度"特征。该过程与数据预处理密切相关,但预处理侧重数据清洗与格式化,而特征工程则通过创造性增强来提升预测能力。

在计算机视觉任务中,特征工程已取得显著进展。传统方法需要人工设计描述符,例如 尺度不变特征变换(SIFT) 来识别边缘和角点。 如今,深度学习模型如YOLO26能在其隐藏层内自动执行特征提取。然而,工程手段在数据集准备中仍发挥着关键作用,例如生成合成数据应用数据增强技术(如马赛克处理和混淆技术),使模型在训练过程中接触到更丰富的特征变体。

常用技术与应用

特征工程涵盖多种策略,这些策略针对特定问题和数据类型进行定制。

  • 降维:诸如 主成分分析(PCA) 等技术在保留关键信息的同时减少变量数量,从而避免 高维数据集中的过拟合现象
  • 编码分类变量:算法通常需要数值输入。诸如 one-hot编码 等方法可将分类标签(如"红色"、"蓝色")转换为模型可处理的二进制向量。
  • 归一化与缩放:将特征缩放至标准范围可确保数值较大的变量(如房价)不会压制数值较小的变量(如房间数量),这对神经网络中的梯度优化至关重要。
  • 分箱与离散化:将连续值分组到箱中(例如年龄组)有助于模型更有效地处理异常值并捕捉非线性关系。

真实世界的例子

特征工程被应用于各个行业以解决复杂问题。

  1. 制造业中的预测性维护: 在智能制造中,传感器从机械设备采集原始振动和温度数据。工程师可创建代表温度"变化率"或振动强度"滚动平均值"的特征量。这些工程特征使异常检测模型能够提前数日预测设备故障,而非仅对当前传感器读数作出反应。
  2. 信用风险评估:金融机构运用特征工程技术评估贷款资质 他们不仅关注原始"收入"数值,还会构建"债务收入比" 或"信用利用率"等衍生特征。这些衍生特征能更细致地展现借款人的 财务健康状况,从而实现更精准的 风险分类

代码示例:自定义特征增强

在计算机视觉领域,我们可以通过增强图像来模拟不同环境条件,从而"设计"特征。这有助于模型如 YOLO26 更好地概括。 以下示例演示了如何使用 ultralytics 工具,迫使模型学习结构特征而非仅依赖颜色。

import cv2
from ultralytics.data.augment import Albumentations

# Load an example image using OpenCV
img = cv2.imread("path/to/image.jpg")

# Define a transformation pipeline to engineer new visual features
# Here, we convert images to grayscale with a 50% probability
transform = Albumentations(p=1.0)
transform.transform = A.Compose([A.ToGray(p=0.5)])

# Apply the transformation to create a new input variation
augmented_img = transform(img)

# This process helps models focus on edges and shapes, improving robustness

与相关术语的区别

将特征工程与类似概念区分开来,有助于避免工作流程讨论中的混淆。

  • 特征工程与特征提取:虽然两者经常互换使用,但还是有细微差别的。 特征工程指的是根据领域知识,手动、创造性地构建新输入的过程。 领域知识构建新的输入。相比之下 特征提取通常指自动 方法或数学投影(如 PCA),可将高维数据提炼为密集的表示形式。在 深度学习(DL)中,层 卷积神经网络(CNN) 通过学习边缘和纹理过滤器来执行自动特征提取。
  • 特征工程与嵌入在现代 在现代自然语言处理(NLP)中,人工创建特征(如计算词频)已在很大程度上被 嵌入。嵌入是由模型自身学习的稠密向量 嵌入是模型自身学习的密集向量表示,用于捕捉语义。嵌入是特征的一种形式、 它们是通过 自动机器学习(AutoML) 过程学习的,而非明确的人工 "设计"。

通过掌握特征工程,开发者能够构建出不仅更准确、而且更高效的模型, 在实现高性能的同时减少计算资源消耗。诸Ultralytics 工具 通过提供直观的数据集管理和模型训练界面, 助力用户快速迭代特征策略。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入