Vector Search
了解向量搜索如何利用嵌入来查找相似数据。学习使用 Ultralytics YOLO26 生成高质量向量,以实现精确的信息检索。
向量搜索是一种复杂的信息检索方法,它根据数据集项目的数学特征而非精确的关键字匹配来识别相似项目。与依赖于查找特定字符字符串的传统关键字搜索不同,向量搜索会分析数据的潜在语义含义。该技术是现代人工智能 (AI) 应用的基础,因为它允许计算机理解抽象概念之间的关系,并能以极高的准确度处理诸如图像、音频文件和自然语言文本等非结构化数据。
Link to this section向量搜索的工作原理#
向量搜索的核心在于将原始数据转换为高维数值向量,即所谓的嵌入 (Embeddings)。此过程将项目映射到多维空间中的点,其中概念上相似的项目会位于彼此附近。
-
向量化:深度学习 (DL) 模型处理输入数据(例如狗的图像)并输出特征向量。诸如 YOLO26 等先进模型常被用于高效生成这些丰富的特征表示。
-
索引:为了快速执行搜索,这些向量会使用专门的算法进行组织,通常存储在专用的向量数据库中。
-
相似度计算:当用户提交查询时,系统会将该查询转换为向量,并使用余弦相似度或欧氏距离等指标来测量其与已存储向量之间的距离。
-
检索:系统返回“最近邻”,即代表上下文相关性最高的结果。
Link to this sectionPython 示例:生成嵌入#
To implement vector search, you must first convert your data into vectors. The following code snippet demonstrates how to generate feature maps and embeddings from an image using the ultralytics package and a pre-trained YOLO26 model.
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Generate feature embeddings for an image URL
# The 'embed' method returns the high-dimensional vector representation
results = model.embed("https://ultralytics.com/images/bus.jpg")
# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")Link to this section实际应用#
向量搜索是当今软件生态系统中许多直观功能的引擎,它架起了计算机视觉 (CV) 与用户意图之间的桥梁。
- 视觉推荐系统:在零售 AI 领域,向量搜索驱动了“搭配购买”功能。如果顾客喜欢某款特定的手提包,系统就会找到具有相似视觉向量(匹配形状、纹理和风格)的项目,从而创建一个个性化的推荐系统。
- 检索增强生成 (RAG):为了增强大语言模型 (LLM),开发者利用向量搜索从知识库中检索相关文档。这为 AI 提供了上下文,从而减少幻觉并提高聊天机器人交互的准确性。
- Anomaly Detection: By clustering vectors of "normal" operations, systems can identify outliers that drift far from the cluster. This is critical for anomaly detection in manufacturing quality control and data security.
Link to this section区分相关概念#
区分向量搜索与类似术语有助于全面理解机器学习 (ML) 流水线。
- 向量搜索与 语义搜索 的区别:语义搜索是理解用户意图(即“是什么”)的更广泛应用。向量搜索则是通过计算向量邻近度来实现这一目标的具体算法方法(即“如何做”)。
- 向量搜索与 向量数据库 的区别:向量数据库是旨在规模化存储和管理嵌入的基础设施。向量搜索则是查询该数据库以检索信息的过程。
- 向量搜索与 关键字搜索 的区别:关键字搜索匹配精确的文本字符串(例如,“apple”匹配“apple”)。向量搜索匹配的是含义,因此即使词语不同,“apple”也可能匹配“水果”或“红色”。
Link to this section与 Ultralytics 平台集成#
对于构建相似度搜索系统的团队来说,管理数据集和训练嵌入模型是至关重要的第一步。Ultralytics 平台通过提供数据管理、云端训练和模型部署工具来简化此工作流程。通过确保你的基础模型(无论是用于目标检测还是分类)具有高性能,你可以确保生成的向量提供准确且有意义的搜索结果。






