Feature Engineering

探索特征工程以提升模型性能。学习缩放和增强等技术，以优化 Ultralytics YOLO26 以获得更高的准确性。

特征工程是指将原始数据转换为有意义的输入，从而提升机器学习模型性能的过程。它涉及利用领域知识来选择、修改或创建被称为“特征”的新变量，以帮助算法更好地理解数据中的模式。虽然像卷积神经网络 (CNNs) 这样的现代深度学习架构能够自动学习特征，但在许多工作流中，明确的特征工程仍然是关键步骤，特别是在处理结构化数据或试图在边缘设备上优化模型效率时。通过细化输入数据，开发者通常可以用更简单的模型获得更高的准确性，减少对大规模计算资源的需求。

Link to this section特征工程在 AI 中的角色#

在人工智能 (AI) 的背景下，原始数据很少能直接用于处理。图像可能需要调整大小，文本可能需要分词，而表格数据往往包含缺失值或无关列。特征工程架起了原始信息与算法所需数学表示之间的桥梁。有效的工程设计可以凸显模型原本可能错过的关键关系，例如结合“距离”和“时间”来创建一个“速度”特征。这个过程与数据预处理密切相关，但预处理侧重于清洗和格式化，而特征工程则是关于通过创造性的增强来提升预测能力。

对于计算机视觉任务，特征工程已有了显著的发展。传统方法涉及手动制作像尺度不变特征变换 (SIFT) 这样的描述符来识别边缘和角点。如今，像 YOLO26 这样的深度学习模型可以在其隐藏层内执行自动特征提取。然而，工程设计在准备数据集方面仍然发挥着至关重要的作用，例如生成合成数据或应用诸如马赛克 (mosaic) 和 MixUp 之类的数据增强技术，以便让模型在训练过程中接触到更稳健的特征变化。

Link to this section常用技术与应用#

特征工程包含广泛的策略，这些策略针对特定问题和数据类型进行了定制。

降维： 诸如主成分分析 (PCA) 等技术可以在保留必要信息的同时减少变量数量，从而防止高维数据集中的过拟合。
分类变量编码： 算法通常需要数值输入。诸如独热编码 (one-hot encoding) 等方法将分类标签（例如“红色”、“蓝色”）转换为模型可以处理的二进制向量。
归一化和缩放： 将特征缩放到标准范围可以确保数值较大的变量（如房价）不会主导数值范围较小的变量（如房间数量），这对神经网络中基于梯度的优化至关重要。
分箱与离散化： 将连续值分组到箱中（例如年龄组）可以帮助模型更有效地处理异常值并捕捉非线性关系。

Link to this section现实世界中的示例#

特征工程被应用于各行各业以解决复杂问题。

制造业中的预测性维护： 在智能制造中，传感器从机器收集原始的振动和温度数据。工程师可能会创建代表温度“变化率”或振动强度“滚动平均值”的特征。这些工程化特征使得异常检测模型能够提前数天预测设备故障，而不是仅仅对当前的传感器读数做出反应。
信用风险评估： 金融机构使用特征工程来评估贷款资格。他们不仅查看原始的“收入”数字，还可能设计“债务收入比”或“信贷利用率”。这些衍生特征提供了对借款人财务状况更细致的看法，从而实现更准确的风险分类。

Link to this section代码示例：自定义特征增强#

在计算机视觉中，我们可以通过增强图像来模拟不同的环境条件，从而“设计”特征。这有助于像 YOLO26 这样的模型更好地泛化。以下示例演示了如何使用 ultralytics 工具应用简单的灰度变换，这会迫使模型学习结构特征，而不是仅仅依赖颜色。

import cv2
from ultralytics.data.augment import Albumentations

# Load an example image using OpenCV
img = cv2.imread("path/to/image.jpg")

# Define a transformation pipeline to engineer new visual features
# Here, we convert images to grayscale with a 50% probability
transform = Albumentations(p=1.0)
transform.transform = A.Compose([A.ToGray(p=0.5)])

# Apply the transformation to create a new input variation
augmented_img = transform(img)

# This process helps models focus on edges and shapes, improving robustness

Link to this section与相关术语的区别#

区分特征工程与类似概念有助于避免工作流讨论中的混淆。

特征工程与特征提取： 虽然这两个词经常互换使用，但它们之间有细微差别。特征工程暗示了一个基于领域知识构建新输入的、手动的创造性过程。相比之下，特征提取通常指自动方法或数学投影（如 PCA），它们将高维数据浓缩为稠密表示。在深度学习 (DL) 中，卷积神经网络 (CNNs) 中的层通过学习边缘和纹理的滤波器来执行自动特征提取。
特征工程与嵌入 (Embeddings)： 在现代自然语言处理 (NLP) 中，手动创建特征（如计算词频）在很大程度上已被嵌入取代。嵌入是由模型本身学习到的、用于捕获语义含义的稠密向量表示。虽然嵌入是一种特征形式，但它们是通过自动化机器学习 (AutoML) 过程学习得到的，而不是通过手工“工程化”出来的。

通过掌握特征工程，开发者可以构建不仅更准确而且更高效的模型，从而以更少的计算能力实现高性能。诸如 Ultralytics Platform 之类的工具通过为数据集管理和模型训练提供直观的界面来促进这一过程，使用户能够快速迭代他们的特征策略。

Explore solutions

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

Feature Engineering

Link to this section特征工程在 AI 中的角色#

Link to this section常用技术与应用#

Link to this section现实世界中的示例#

Link to this section代码示例：自定义特征增强#

Link to this section与相关术语的区别#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！