探索向量搜索如何利用嵌入技术查找相似数据。学习Ultralytics 生成高质量向量,实现精准信息检索。
向量搜索是一种复杂的信息检索方法,它基于数据集内项目的数学特征而非精确关键词匹配来识别相似项。 与依赖特定字符串匹配的传统关键词搜索不同,向量搜索能解析数据的深层语义含义。该技术是现代人工智能(AI)应用的基础,它使计算机能够理解抽象概念间的关联,并以惊人精度处理图像、音频文件及自然语言文本等非结构化数据。
向量搜索的核心在于将原始数据转换为高维数值向量,即所谓的嵌入向量。该过程将项目映射到多维空间中的点,在该空间中概念相似的项目彼此邻近。
要实现向量搜索,必须先将数据转换为向量。以下代码片段演示了如何生成向量: 特征图 以及图像的嵌入
使用 ultralytics 包和一个预训练的YOLO26模型。
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Generate feature embeddings for an image URL
# The 'embed' method returns the high-dimensional vector representation
results = model.embed("https://ultralytics.com/images/bus.jpg")
# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")
向量搜索是当今软件生态系统中诸多直观功能背后的核心引擎,它弥合了计算机视觉(CV)与用户意图之间的鸿沟。
区分向量搜索与类似术语有助于理解完整的机器学习(ML)流程。
对于构建相似性搜索系统的团队而言, 管理数据集和训练嵌入模型是至关重要的第一步。 Ultralytics 提供数据管理、云端训练和模型部署工具, 简化了这一工作流程。通过确保基础模型——无论是用于 目标检测还是分类——都具备高性能, 您就能确保生成的向量提供准确且有意义的搜索结果。