敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

向量数据库

了解向量数据库如何通过为智能系统实现高效的相似性搜索、语义搜索和异常检测来革新 AI。

向量数据库是一种专门的数据库,旨在存储、管理和搜索称为向量嵌入的高维数据。与针对结构化数据和精确匹配进行优化的传统关系数据库不同,向量数据库擅长根据项目的相似性查找项目。这种能力是各种现代人工智能应用(从推荐引擎到视觉搜索)的基础,使其成为机器学习基础设施中的关键组件。它们充当人工智能模型的长期记忆,使它们能够利用训练期间学习的复杂模式。

向量数据库的工作原理

向量数据库的核心功能是高效地执行向量搜索。该过程从非结构化数据(例如图像、文本块或音频剪辑)通过深度学习模型以创建称为向量嵌入的数字表示时开始。这些嵌入捕获原始数据的语义。

然后,向量数据库存储这些嵌入,并使用专门的算法对其进行索引。当发出查询时(例如,使用图像进行搜索),查询数据也会转换为向量。然后,数据库使用相似性指标(如余弦相似度欧几里得距离)将此查询向量与存储的向量进行比较,以找到“最近”或最相似的项目。为了以数百万或数十亿个向量的规模执行此操作,它们通常依赖于高效的近似最近邻 (ANN)算法。

实际应用

向量数据库为用户每天交互的许多智能功能提供支持。

  1. 电商中的视觉搜索: 用户可以上传他们喜欢的产品照片。计算机视觉模型(例如 Ultralytics YOLO11 模型)会为该图像生成嵌入向量。此嵌入向量用于查询电子商务网站的向量数据库,该数据库包含其整个产品目录的嵌入向量。数据库返回最相似的向量,使网站能够显示视觉上相同或风格相关的产品,这是零售业人工智能中的一个关键功能。
  2. 文档的语义搜索: 公司可以为其所有内部文档(如报告和支持票证)创建嵌入。然后,员工可以使用自然语言问题(如“我们上个季度的利润是多少?”)而不是特定关键词进行搜索。自然语言处理 (NLP)模型将此查询转换为嵌入,并且向量数据库会查找其嵌入在语义上最接近的文档,从而提供相关信息,即使确切的措辞不匹配。这是检索增强生成 (RAG)系统的核心组件。

向量数据库 vs. 相关概念

区分向量数据库和密切相关的术语是有帮助的:

  • 嵌入: 嵌入是数据的向量表示。向量数据库是专门构建的系统,旨在高效地存储、索引和查询这些嵌入。可以将嵌入视为书籍,而将向量数据库视为组织它们的智能图书馆。
  • 向量搜索: 向量搜索是在数据集中查找最相似向量的过程。向量数据库是使此过程快速且可扩展的底层技术,尤其适用于实时推理

这些组件作为完整的 MLOps 工作流程的一部分进行管理,通常由 Ultralytics HUB 等平台促进,以实现端到端的模型和数据集管理。

流行的向量数据库

有几种开源和商业向量数据库可用,每种数据库在可扩展性、部署和功能方面都有不同的优势。其中一些最广泛使用的包括:

  • Pinecone: 一种流行的、完全托管的向量数据库服务。
  • Milvus:一款为高性能和可扩展性设计的开源向量数据库。
  • Weaviate: 一种具有图功能的开源、AI 原生数据库。
  • Chroma DB:一个专注于简单性和开发者体验的开源嵌入数据库。
  • Qdrant: 一种开源向量数据库和相似性搜索引擎,使用 Rust 编写,具有高性能和安全性。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板