术语表

支持向量机 (SVM)

了解支持向量机 (SVM) 在分类、回归和离群点检测方面的强大功能,以及在现实世界中的应用和见解。

支持向量机(SVM)是一种功能强大、用途广泛的监督学习算法,可用于分类和回归任务。SVM 的核心是找到一个最佳超平面或决策边界,将数据点分成不同的类别。SVM 之所以特别有效,是因为它的目标是最大化边际--分离超平面与任何类别的最近数据点之间的距离。这一原则在Cortes 和 Vapnik 的基础论文中有详细阐述,它有助于提高模型的泛化能力,使其不易过度拟合

Svms 如何工作

该算法的工作原理是将每个数据项绘制成 n 维空间中的一个点(n 为特征数)。然后,通过寻找能在不同类别之间产生最佳分离效果的超平面来进行分类。

  • 超平面:这是决策边界。在有两个特征的数据集中,它是一条线;有三个特征时,它是一个平面。如果特征较多,则会变成超平面。
  • 支持向量:这些是最靠近超平面的数据点。它们至关重要,因为它们定义了边际,移除它们会改变超平面的位置。斯坦福大学的 CS229 讲义中提供了支持向量的出色可视化方法。
  • 边际:边际是支持向量与超平面之间的差距。SVM 的目标是找到能最大化边际值的超平面,从而创建尽可能稳健的分离。
  • 核技巧:对于不可线性分离的数据,SVM 使用一种称为 "核技巧 "的技术。这种强大的方法是将数据转换到一个高维空间,在该空间中可以找到线性分离器,而无需明确计算数据在新空间中的坐标。像径向基函数 (RBF) 这样的常用核可以处理非常复杂的非线性关系。您可以浏览 SVM 内核指南,了解更多详情。

实际应用

SVM 在许多领域都很有效,尤其是在处理高维数据问题时。

  • 生物信息学在基因组学和蛋白质组学中,SVM 可用于蛋白质分类和基因表达数据分析。例如,它们可以帮助根据微阵列数据识别癌症亚型,这是一项涉及数千个特征的任务。这使得 SVM 成为人工智能医疗保健领域的重要工具。
  • 图像分类:在深度神经网络占据主导地位之前,SVM 是图像分类领域表现最出色的模型。它们已成功用于MNIST等数据集上的手写数字识别和Caltech-101 上的物体识别等任务。
  • 文本分类:在自然语言处理(NLP)领域,SVM 对于垃圾邮件检测和情感分析等任务非常有效。它们能有效管理文本矢量化方法创建的高维特征空间。

Svm 与其他算法的比较

逻辑回归等更简单的算法相比,SVM 的目标是最大化边际,而不仅仅是找到一个分离边界,这可以带来更好的泛化效果。与决策树随机森林等基于树的方法不同,SVM 会构建一个单一的最优超平面(可能在高维空间中)。Ultralytics YOLO等现代深度学习模型擅长从原始数据(如计算机视觉(CV)中的像素)中自动提取特征,而 SVM 通常需要仔细的特征工程,但在特征定义明确的较小数据集或特定类型的结构化数据中,SVM 的表现却异常出色。您可以在UCI 机器学习资料库中找到许多此类数据集。

流行的实现包括LibSVMscikit-learn 中的 SVM 模块。虽然 SVM 通常不是PyTorchTensorFlow 等现代 CV 框架的核心,但它可以集成到更广泛的工作流程中。使用Ultralytics HUB 等平台可以简化从数据标注超参数调整和最终模型部署MLOps生命周期。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板