遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Semantic Caching

了解语义缓存如何降低 AI 延迟和成本。通过一个实用的 Ultralytics YOLO26 示例,学习它在 LLM 和视觉流水线中的工作原理。

语义缓存是一种主要用于生成式 AI大型语言模型 (LLMs) 的高级优化技术,它根据查询的含义(语义)而非确切文本来存储和检索响应。通过识别新提示词是否在询问与之前已回答问题相同的根本问题,语义缓存无需重新调用 AI 模型,从而显著减少处理时间和 API 成本

Link to this section语义缓存的工作原理#

与需要完全相同字符串匹配的传统缓存不同,语义缓存将传入的查询转换为称为嵌入的高维数值向量。当用户提交提示词时,使用 Redis 语义缓存或类似内存存储的系统会执行向量搜索,将新向量与向量数据库中先前存储的向量进行比较。

这种比较依赖于数学距离度量,最常用的是余弦相似度。如果新查询与缓存查询之间的相似度得分超过预定义的阈值(例如 0.95),则会注册为“缓存命中”。系统会立即返回存储的响应,完全跳过推理引擎。如果得分低于该阈值,则会导致“缓存未命中”,从而提示模型生成新响应并存储新的嵌入-答案对以供将来交互使用。此工作流在现代云架构中对于扩展 AI 应用程序非常有效。

Link to this section实际应用#

语义缓存对于在各个领域部署经济高效的 AI 解决方案至关重要。

  • Customer Support Chatbots: In an IT support desk, hundreds of users might ask variations of the same question (e.g., "How do I reset my password?" vs. "Forgot password steps"). Semantic caching recognizes these intents as identical, ensuring the model only computes the answer once. This drastically lowers inference latency and reduces token usage for API management solutions.
  • 视觉发现与 RAG 在多模态流水线中,平台使用特征提取来缓存参考图像的嵌入。当用户上传图像以查找视觉相似的项目时,系统可以立即检索语义匹配的缓存结果,从而在无需重复编码大型视觉输入的情况下快速加速视觉推荐系统。开发人员经常集成 LangChain 等工具来编排这些缓存层。

Link to this section区分相关的缓存术语#

为了充分理解 AI 优化,区分语义缓存与其他内存管理形式很有帮助:

  • 对比提示词缓存 提示词缓存涉及在活动会话期间保存静态上下文(如长文档前缀)的预计算数学状态,以加速后续查询。语义缓存存储完整交互的最终文本或视觉输出,以服务于全新的但相同的意图。
  • 对比 KV 缓存 KV 缓存是 Transformer 架构内部的一种低级内存机制,它在逐词文本生成过程中保存中间注意力状态,以促进实时推理。语义缓存运行在应用层,在输入输出交换到达模型层之前就将其缓存起来。

Link to this section在视觉中模拟语义缓存#

以下 Python 代码片段演示了如何使用 PyTorchultralytics 包模拟语义缓存的核心机制。通过使用 Ultralytics YOLO26 分类模型计算先前缓存的图像与新查询图像之间的相似度,系统可以确定是否需要进行完整的推理过程。

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

对于希望管理数据集并部署可与高级缓存架构无缝集成的经过高度优化的计算机视觉模型的团队,Ultralytics Platform 提供了直观、端到端的环境,用于大规模训练、跟踪和部署模型。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅