通过 Ultralytics YOLO11 探索机器学习中特征提取的力量。学习高效检测和分析技术。
特征提取是机器学习(ML)和数据预处理中的一个基本过程,包括将原始的高维数据转换为更易于管理和信息量更大的特征集。这种技术不需要向模型输入大量而且往往是冗余的数据(如图像中的每个像素),而是识别并提取最具特征的属性或特征。这一过程可减少训练所需的计算资源,并通过关注相关信息帮助 ML 模型更有效地学习,从而显著提高模型的准确性。
特征提取的主要目标是在不丢失关键信息的情况下简化数据。这一点至关重要,原因有以下几点:
特征提取方法既有传统的手工技术,也有由深度学习驱动的现代自动方法。
传统方法:这些技术依赖于专门的算法,根据预定义的规则提取特征。例如,用于图像分析的尺度不变特征变换(SIFT)和定向梯度直方图(HOG),或用于文本处理的词频-反向文档频率(TF-IDF)。这些方法虽然有效,但在设计时往往需要大量的领域专业知识。
自动方法(学习特征):现代神经网络(NN),尤其是卷积神经网络(CNN),擅长自动特征提取。当数据通过网络的各层时,模型会自行学习识别分层模式--从最初层的简单边缘和颜色到更深层的复杂形状和物体。这种学习到的表征往往比手工制作的特征更强大、更有效。
特征提取是许多人工智能(AI)应用的基石。
物体检测:在计算机视觉(CV)中,Ultralytics YOLO11等模型使用骨干网络自动从输入图像中提取特征。这些特征表示为特征图,编码了物体的纹理、形状和部分信息。然后,检测头使用这些地图来识别和定位物体。这对于自动驾驶汽车和制造业人工智能等应用至关重要。
医学图像分析:在医疗保健领域,特征提取可帮助放射科医生和临床医生分析医疗扫描结果。CNN 可以处理核磁共振成像或 CT 扫描,以提取表明肿瘤或其他异常的特征,如脑肿瘤数据集中的特征。这种自动分析有助于更快、更准确地进行诊断。您可以在我们关于使用 YOLO11 进行肿瘤检测的博客中了解其工作原理。
这有助于将特征提取与类似术语区分开来:
特征提取与特征工程:特征工程是一个更广泛的术语,包括从原始数据中创建特征。特征提取是特征工程的一种特定类型,在这种类型中,现有特征被转换成一个新的、更小的集合。特征选择是另一种类型,涉及从原始特征中选择一个子集。
特征提取与降维:降维是结果,而特征提取是实现降维的一种方法。主成分分析(PCA)等技术是特征提取用于降维的典型例子。
特征提取与嵌入:嵌入是一种学习特征表示。深度学习模型通过自动特征提取过程创建这些密集的向量表示,捕捉数据中复杂的语义关系。
PyTorch和TensorFlow等框架提供了构建这些强大模型的工具,而Ultralytics HUB等平台则简化了从管理数据集到 训练模型的整个工作流程。