深圳Yolo 视觉
深圳
立即加入
词汇表

向量数据库

了解向量数据库如何管理高维嵌入以进行语义检索。学习如何使用Ultralytics YOLO26和相似性搜索为AI应用赋能。

向量数据库是一种专门的存储系统,旨在管理、索引和查询高维向量数据,这些数据通常被称为嵌入。与将结构化数据组织成行和列以进行精确关键词匹配的传统关系型数据库不同,向量数据库针对语义检索进行了优化。它使智能系统能够找到概念上相似而非完全相同的数据点。这项能力是现代人工智能 (AI)基础设施的基础,它允许应用程序通过分析图像、音频、视频和文本等非结构化数据之间的数学关系来处理和理解它们。这些数据库充当智能代理的长期记忆,促进了视觉搜索和个性化推荐等任务。

向量数据库的工作原理

向量数据库的功能核心在于向量空间的概念,其中数据项被映射为多维坐标系中的点。该过程始于特征提取,其中深度学习 (DL)模型将原始输入转换为数值向量。

  1. 数据摄取:数据由神经网络(例如最先进的YOLO26)处理,以生成嵌入。这些向量将输入的语义含义压缩成一个密集浮点数列表。
  2. 索引:为确保检索过程中较低的推理延迟,数据库使用专门的算法组织这些向量。诸如分层可导航小世界 (HNSW)倒排文件索引 (IVF)等技术使系统能够高效地导航数十亿个向量,而无需扫描每个条目。
  3. 查询:当用户提交搜索查询(例如,特定鞋款的图像)时,系统将查询转换为向量,并使用余弦相似度欧氏距离等距离度量计算其与存储向量的接近度。
  4. 检索:数据库返回“最近邻”,这些结果代表了上下文最相关的结果。

以下python代码片段演示了如何使用标准方法生成嵌入 ultralytics 模型,这是在填充向量数据库之前的先决步骤。

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

实际应用

向量数据库是当今企业环境中许多先进的计算机视觉 (CV)自然语言处理 (NLP)应用的幕后引擎。

  • 检索增强生成 (RAG):生成式AI时代,向量数据库使大型语言模型 (LLMs)能够访问庞大的私有、最新数据。通过根据用户提示的语义检索相关文档,系统减少了LLM中的幻觉,并提供事实性、上下文感知的回复。
  • 视觉推荐引擎:零售AI中,平台利用向量数据库驱动“购买相似款式”功能。如果用户查看某款夏季连衣裙,系统会查询数据库,寻找具有相似视觉嵌入的其他产品图片——匹配图案、剪裁和颜色——从而提供比简单标签过滤更好的用户体验
  • 异常和威胁检测:安全系统利用向量数据库进行异常检测。通过存储“正常”行为或授权人员的嵌入,系统可以立即标记出落在向量空间中预期聚类之外的异常值,从而增强数据安全和设施监控。

区分相关概念

为了有效实施这些系统,区分向量数据库与机器学习运维 (MLOps)领域中的相关技术会有所帮助。

  • 向量数据库 vs. 向量搜索向量搜索是寻找相似向量的动作或算法过程(即“如何实现”)。向量数据库是为存储数据、管理索引并大规模执行这些搜索而构建的强大基础设施(即“在哪里实现”)。
  • 向量数据库 vs. 特征存储特征存储是一个集中式存储库,用于管理模型训练和推理中使用的特征,确保一致性。尽管它处理特征数据,但它并非主要针对定义向量数据库的基于相似性的检索查询进行优化。
  • 向量数据库 vs. 数据湖数据湖以其原始格式存储大量原始数据。向量数据库存储该数据的经过处理的数学表示(嵌入),专门针对相似性搜索进行优化。

与现代人工智能工作流程集成

实施向量数据库通常涉及一个管道,其中像高效的YOLO26这样的模型充当嵌入引擎。这些模型在边缘或云端处理视觉数据,生成的向量被推送到PineconeMilvusQdrant等解决方案。

对于希望简化整个生命周期——从数据整理、自动标注到模型训练和部署——的团队,Ultralytics Platform提供了一个全面的环境。通过将模型训练与高效的部署策略相结合,开发人员可以确保输入其向量数据库的嵌入是准确的,从而获得更高质量的搜索结果和更智能的AI智能体。

让我们一起共建AI的未来!

开启您的机器学习未来之旅