术语表

矢量数据库

了解矢量数据库如何通过为智能系统提供高效的相似性搜索、语义搜索和异常检测来彻底改变人工智能。

矢量数据库是一种专门用于存储、管理和搜索称为矢量嵌入的高维数据的数据库。与针对结构化数据和精确匹配进行优化的传统关系数据库不同,矢量数据库擅长根据相似性查找项目。这种能力对于从推荐引擎到可视化搜索等广泛的现代人工智能应用来说至关重要,使其成为机器学习基础架构的重要组成部分。它们充当了人工智能模型的长期存储器,使其能够利用在训练过程中学到的复杂模式。

矢量数据库的工作原理

向量数据库的核心功能是高效执行向量搜索。当非结构化数据(如图像、文本块或音频片段)通过深度学习模型创建称为向量嵌入的数字表示时,这一过程就开始了。这些嵌入可以捕捉原始数据的语义。

然后,矢量数据库会存储这些嵌入数据,并使用专门的算法为其建立索引。当进行查询时(例如用图像进行搜索),查询数据也会被转换成向量。然后,数据库会使用余弦相似度或欧氏距离等相似度指标,将查询向量与存储的向量进行比较,以找到 "最近 "或最相似的项目。要在数百万或数十亿矢量的规模上执行这项工作,通常需要依靠高效的近似近邻(ANN)算法。

实际应用

矢量数据库支持用户日常使用的许多智能功能。

  1. 电子商务中的视觉搜索:用户可以上传他们喜欢的产品照片。计算机视觉模型(如Ultralytics YOLO11模型)会生成图像的嵌入。该嵌入用于查询电子商务网站的矢量数据库,其中包含整个产品目录的嵌入。数据库会返回最相似的矢量,使网站能够显示视觉上相同或风格上相关的产品,这是零售业人工智能的一项关键功能。
  2. 文件语义搜索:公司可以为其所有内部文档(如报告和支持票据)创建嵌入式内容。然后,员工可以使用 "我们上个季度的利润是多少?"这样的自然语言问题进行搜索,而不是使用特定的关键词。自然语言处理(NLP)模型会将这一查询转换为嵌入,然后向量数据库会找到嵌入语义最接近的文档,即使精确的措辞不匹配,也能提供相关信息。这是检索增强生成(RAG)系统的核心组成部分。

矢量数据库与相关概念

将矢量数据库与密切相关的术语区分开来很有帮助:

  • 嵌入嵌入是数据的向量表示。矢量数据库是为有效存储、索引和查询这些嵌入式数据而建立的专业系统。将嵌入式视为书籍,而矢量数据库则是组织这些书籍的智能图书馆。
  • 向量搜索矢量搜索是在数据集中找到最相似矢量的过程。矢量数据库是使这一过程快速、可扩展的基础技术,尤其适用于实时推理

这些组件作为完整的MLOps工作流程的一部分进行管理,通常由Ultralytics HUB等平台进行端到端模型和数据集管理。

流行的矢量数据库

目前有几种开源和商业矢量数据库可供选择,它们在可扩展性、部署和功能方面各有所长。其中使用最广泛的包括

  • 松果一种流行的、全面管理的矢量数据库服务。
  • Milvus:为高性能和可扩展性而设计的开源矢量数据库。
  • Weaviate:一个具有图功能的开源、人工智能原生数据库。
  • Chroma DB:开源嵌入式数据库,注重简便性和开发人员体验。
  • Qdrant:用 Rust 编写的开源矢量数据库和相似性搜索引擎,性能和安全性俱佳。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板