通过 Ultralytics YOLO11 探索机器学习中特征提取的强大功能。学习高效检测和分析的技术。
特征提取是 机器学习 (ML) 和 数据预处理 中的一个基本过程,它涉及将原始的、高维数据转换为更易于管理和信息量更大的特征集。这种技术不是用大量且通常冗余的数据(例如图像中的每个像素)来馈送模型,而是识别并导出最具代表性的属性或特征。此过程减少了训练所需的计算资源,并通过专注于相关信息来帮助 ML 模型更有效地学习,从而可以显著提高模型准确性。
特征提取的主要目标是简化数据而不丢失关键信息。这对于以下几个原因至关重要:
特征提取方法范围从传统的手工技术到由 深度学习 驱动的现代自动化方法。
传统方法: 这些技术依赖于专门的算法来提取基于预定义规则的特征。例如,用于图像分析的 尺度不变特征变换 (SIFT) 和方向梯度直方图 (HOG),或者用于文本处理的词频-逆文档频率 (TF-IDF)。虽然有效,但这些方法通常需要大量的领域专业知识来进行设计。
自动化方法(学习特征): 现代神经网络 (NN),特别是卷积神经网络 (CNN),擅长自动化特征提取。当数据通过网络的各层时,模型会自行学习识别分层模式——从初始层中的简单边缘和颜色到更深层中的复杂形状和对象。这种学习到的表示通常比手工设计的特征更强大、更有效。
特征提取是许多 人工智能 (AI) 应用的基石。
对象检测: 在计算机视觉 (CV)中,像Ultralytics YOLO11这样的模型使用骨干网络自动从输入图像中提取特征。这些特征表示为特征图,编码有关纹理、形状和对象部分的信息。检测头然后使用这些图来识别和定位对象。这对于像自动驾驶汽车和制造业中的 AI这样的应用至关重要。
医学影像分析: 在医疗保健领域,特征提取有助于放射科医生和临床医生分析医学扫描图像。卷积神经网络 (CNN) 可以处理 MRI 或 CT 扫描,以提取指示肿瘤或其他异常的特征,例如在脑肿瘤数据集中。这种自动化分析有助于更快、更准确的诊断。您可以在我们关于使用 YOLO11 进行肿瘤检测的博客中了解其工作原理。
区分特征提取和类似术语是有帮助的:
特征提取 vs. 特征工程: 特征工程是一个更广泛的术语,包括从原始数据创建特征。特征提取是一种特定类型的特征工程,其中现有特征被转换为新的、更小的集合。特征选择是另一种类型,涉及选择原始特征的子集。
特征提取 vs. 降维: 降维是结果,而特征提取是实现它的方法之一。诸如主成分分析 (PCA)之类的技术是用于降维的特征提取的经典示例。
特征提取 vs. 嵌入 (Embeddings): 嵌入是一种学习到的特征表示。深度学习模型创建这些密集向量表示,作为自动特征提取过程的结果,从而捕获数据中复杂的语义关系。
诸如 PyTorch 和 TensorFlow 之类的框架提供了构建这些强大模型的工具,而诸如 Ultralytics HUB 之类的平台简化了整个工作流程,从管理数据集到训练模型。