了解向量数据库如何通过为智能系统实现高效的相似性搜索、语义搜索和异常检测来革新 AI。
向量数据库是一种专门的数据库,旨在存储、管理和搜索称为向量嵌入的高维数据。与针对结构化数据和精确匹配进行优化的传统关系数据库不同,向量数据库擅长根据项目的相似性查找项目。这种能力是各种现代人工智能应用(从推荐引擎到视觉搜索)的基础,使其成为机器学习基础设施中的关键组件。它们充当人工智能模型的长期记忆,使它们能够利用训练期间学习的复杂模式。
向量数据库的核心功能是高效地执行向量搜索。该过程从非结构化数据(例如图像、文本块或音频剪辑)通过深度学习模型以创建称为向量嵌入的数字表示时开始。这些嵌入捕获原始数据的语义。
然后,向量数据库存储这些嵌入,并使用专门的算法对其进行索引。当发出查询时(例如,使用图像进行搜索),查询数据也会转换为向量。然后,数据库使用相似性指标(如余弦相似度或欧几里得距离)将此查询向量与存储的向量进行比较,以找到“最近”或最相似的项目。为了以数百万或数十亿个向量的规模执行此操作,它们通常依赖于高效的近似最近邻 (ANN)算法。
向量数据库为用户每天交互的许多智能功能提供支持。
区分向量数据库和密切相关的术语是有帮助的:
这些组件作为完整的 MLOps 工作流程的一部分进行管理,通常由 Ultralytics HUB 等平台促进,以实现端到端的模型和数据集管理。
有几种开源和商业向量数据库可用,每种数据库在可扩展性、部署和功能方面都有不同的优势。其中一些最广泛使用的包括: