Latent Space
探索机器学习中的潜在空间。了解神经网络如何将数据压缩为嵌入(embeddings),以及如何使用 Ultralytics YOLO26 提取特征。
在 人工智能 中,潜在空间是复杂数据的一种压缩后的低维数学表示。当 神经网络 处理高维输入(例如图像的原始像素值或文本的序列化 token)时,它会将这些信息浓缩成紧凑的 多维向量。在这个隐藏的几何空间中,具有语义相似性的数据点在 坐标系 中靠得很近。例如,“汽车”的数学表示会位于“卡车”附近,但远离“苹果”。通过将数据映射到连续的 数学流形 中,机器学习模型可以轻松地进行比较、插值和提取有意义的模式,而无需处理冗余的背景噪声。
Link to this section区分相关概念#
理解这些隐藏表示的工作原理,需要将它们与密切相关的 计算机视觉 概念区分开来:
- 嵌入 (Embeddings):嵌入是表示单个数据片段的实际数学向量(坐标)。潜在空间是包含所有这些独立嵌入的总括性数学环境。
- 降维 (Dimensionality Reduction):降维是指用于压缩数据的算法过程(例如 主成分分析)。潜在空间是该过程产生的输出环境。
Link to this section现实世界的 AI 应用#
压缩和语义组织数据的能力使这一概念成为现代视觉系统的基础,推动了整个行业中的多种实际用例:
- 生成式 AI:先进的生成式架构,特别是 潜在扩散模型 (LDMs),并不是逐像素生成图像。相反,正如基础 学术研究 中详细说明的那样,它们完全在压缩空间内迭代添加和去除噪声。这大大降低了计算成本,使 研究机构 能够训练出高效的模型。
- 图像分类:诸如 CLIP 之类的架构将视觉数据和文本描述映射到 共享潜在空间。通过计算图像向量和文本向量之间的距离,模型可以识别出它从未明确训练过的对象,从而彻底改变了企业团队处理自动化 数据标注工作流 的方式。
- 异常检测:通过在正常、无缺陷产品的图像上训练 自动编码器,网络会学习到特定的基准表示。当处理有缺陷的产品时,其映射会落在预期区域之外,从而标记出来以便立即检查。
Link to this section提取潜在特征#
In practice, you can access these hidden representations by extracting the feature maps from the final layers of a vision model before the classification or object detection head. Below is a concise example using Ultralytics YOLO26 to generate image embeddings.
from ultralytics import YOLO
# Load a pretrained YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Pass an image through the model to extract its latent embedding vector
results = model.embed("https://ultralytics.com/images/bus.jpg")
# The result is a high-dimensional tensor representing the image in the latent space
print(f"Embedding shape: {results[0].shape}")Link to this section利用潜在表示构建应用#
随着行业向高效的 边缘计算 和紧凑的 基础模型 发展,掌握潜在空间操作至关重要。利用这些 密集向量空间 可以让你构建健壮的 推荐系统 和语义搜索引擎。对于希望扩展其自定义视觉应用的企业团队,Ultralytics Platform 提供了用于数据集管理、自动标注和无缝 模型部署 的精简云环境,帮助你将原始视觉数据转化为可操作的智能。






