敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

向量搜索

探索向量搜索如何通过在 NLP、视觉搜索、推荐系统等的数据检索中实现语义相似性来革新 AI!

向量搜索是一种通过将数据表示为数值向量(称为嵌入向量)来查找大型数据集中相似项的方法。它不匹配精确的关键词,而是识别在语义或语境上相似的项目。这种方法是现代人工智能(AI)系统的基础,能够为图像、文本和音频等复杂数据类型实现更直观和准确的信息检索。它超越了字面查询,理解了潜在的含义或意图,使其成为构建复杂搜索和推荐引擎的强大工具。

向量搜索的工作原理是什么?

向量搜索的过程涉及几个关键步骤,这些步骤将原始数据转换为基于含义的可搜索格式。它由深度学习模型和高效算法提供支持。

  1. 生成嵌入: 首先,机器学习模型(例如 transformer卷积神经网络 (CNN))将数据项(例如,句子、图像、用户个人资料)转换为称为 嵌入 的高维数值向量。每个向量都捕获项目的语义本质。
  2. 索引: 这些生成的向量存储在专门的 向量数据库 中并建立索引。这些数据库(如 PineconeMilvus)经过优化,可以高效地管理和查询大量的向量数据。
  3. 查询: 当用户提交查询(如文本短语或图像)时,系统会使用相同的模型将其转换为向量。
  4. 相似度计算: 然后,系统使用算法在数据库中查找与查询向量“最接近”的向量。这通常使用余弦相似度或欧几里得距离等距离度量来完成。为了处理海量数据集,系统通常使用 近似最近邻 (ANN) 算法,如 ScaNNFaiss,以进行快速、可扩展的搜索,从而找到高度相关的(如果不是完全匹配的)匹配项。

实际应用

向量搜索是许多高级 AI 功能背后的技术。它使系统能够超越简单的匹配,并在各个行业中提供上下文感知的搜索结果。

  • 语义图像搜索: 用户可以使用描述性的自然语言短语搜索图像,而不是依赖于手动标签或文件名。例如,用户可以搜索“日落时分在山路上行驶的汽车”,系统会检索视觉上相似的图像,从而理解上下文中“汽车”、“山”和“日落”的概念。您可以探索如何使用Ultralytics 的相似性搜索指南来实现此目的。
  • Recommendation Systems(推荐系统): 电子商务和流媒体平台使用向量搜索来推荐产品或内容。如果您观看了一部科幻电影,该服务可以通过比较它们的向量嵌入来查找并推荐在类型、基调和情节上相似的其他电影。这是 零售业中的 AI 中的一项核心功能,旨在增强用户体验和参与度。

向量搜索 vs. 相关概念

区分向量搜索和其他相关术语,有助于理解其在 AI 生态系统中的具体作用。

  • 关键词搜索: 传统的关键词搜索依赖于匹配确切的单词或短语。它难以处理同义词、上下文和语言细微差别。相比之下,向量搜索理解语义关系,即使关键词不完全匹配,它也能找到相关的结果。
  • 语义搜索: 语义搜索是理解查询意图和上下文含义的广泛概念。向量搜索是用于实现语义搜索的核心方法。虽然语义搜索是“什么”(理解含义),但向量搜索是“如何”(基于向量邻近度的检索机制)。
  • 嵌入: 嵌入是数据的向量表示。向量搜索是查询嵌入集合以找到最相似的向量的过程。嵌入是数据,而向量搜索是对该数据执行的操作。
  • 向量数据库: 向量数据库是专门的基础设施,用于存储、索引和高效查询嵌入。诸如Ultralytics HUB之类的平台有助于管理数据集和模型,这些数据集和模型生成这些嵌入,以用于向量搜索系统。

通过利用 嵌入 的强大功能和复杂的搜索算法,向量搜索弥合了人类意图和数字数据之间的差距,使其成为许多智能应用程序的重要组成部分,从 自然语言处理 (NLP) 到高级 计算机视觉 任务。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板