了解矢量数据库如何通过为智能系统提供高效的相似性搜索、语义搜索和异常检测来彻底改变人工智能。
矢量数据库是一种专门用于存储、管理和搜索称为矢量嵌入的高维数据的数据库。与针对结构化数据和精确匹配进行优化的传统关系数据库不同,矢量数据库擅长根据相似性查找项目。这种能力对于从推荐引擎到可视化搜索等广泛的现代人工智能应用来说至关重要,使其成为机器学习基础架构的重要组成部分。它们充当了人工智能模型的长期存储器,使其能够利用在训练过程中学到的复杂模式。
向量数据库的核心功能是高效执行向量搜索。当非结构化数据(如图像、文本块或音频片段)通过深度学习模型创建称为向量嵌入的数字表示时,这一过程就开始了。这些嵌入可以捕捉原始数据的语义。
然后,矢量数据库会存储这些嵌入数据,并使用专门的算法为其建立索引。当进行查询时(例如用图像进行搜索),查询数据也会被转换成向量。然后,数据库会使用余弦相似度或欧氏距离等相似度指标,将查询向量与存储的向量进行比较,以找到 "最近 "或最相似的项目。要在数百万或数十亿矢量的规模上执行这项工作,通常需要依靠高效的近似近邻(ANN)算法。
矢量数据库支持用户日常使用的许多智能功能。
将矢量数据库与密切相关的术语区分开来很有帮助:
这些组件作为完整的MLOps工作流程的一部分进行管理,通常由Ultralytics HUB等平台进行端到端模型和数据集管理。
目前有几种开源和商业矢量数据库可供选择,它们在可扩展性、部署和功能方面各有所长。其中使用最广泛的包括