深圳Yolo 视觉
深圳
立即加入
词汇表

Prompt 缓存

了解提示缓存如何通过降低延迟和成本来优化生成式 AI。探索其在 LLM 和 Ultralytics YOLO26 实时计算机视觉中的作用。

提示缓存是一种先进的优化策略,主要用于生成式AI,以显著降低成本并缩短推理时的响应时间。在大型语言模型 (LLMs)领域,文本处理需要将输入转换为数值序列,即token。通常,大部分输入数据(例如详细的系统指令、冗长的法律文档或代码库)在许多不同的用户查询中保持不变。提示缓存不是为每个新请求重新处理这些不变的部分,而是将预先计算的数学状态(通常称为键值缓存)存储在内存中。这使得推理引擎能够跳过冗余计算,将计算能力集中在新颖、动态的用户提示部分。

机制和益处

提示缓存的基本机制依赖于Transformer的架构,该架构按顺序处理数据。通过识别提示的重复前缀,系统可以直接从高速内存中加载相应的注意力机制状态。

  • 降低延迟:缓存显著降低了推理延迟,特别是首个token生成时间 (TTFT)。这确保了实时应用程序,例如交互式聊天机器人,能让用户感觉即时。
  • 成本效益: 由于 云计算提供商通常 根据计算时长或令牌处理量计费,跳过静态上下文的繁重处理可带来大幅节省。
  • 提高吞吐量:通过释放GPU资源,服务器可以处理更高并发量的请求,使整个模型服务基础设施更具可扩展性。

实际应用

提示缓存正在改变那些依赖大量数据上下文的行业。

  1. 编码助手: 在软件开发中,GitHub Copilot 等工具利用用户打开的文件和仓库结构中的大量上下文。通过缓存代码库的 嵌入,模型可以提供实时代码补全建议,而无需在每次按键时重新分析整个项目文件结构。
  2. 法律与医疗分析:专业人士经常针对海量静态文档(例如判例法档案或患者病史记录)查询AI Agent。利用检索增强生成 (RAG),系统检索相关的文本片段。提示缓存确保这些检索到的文档的基础上下文无需为后续问题重新计算,从而简化问答工作流程。

在计算机视觉中的相关性

虽然传统上与文本相关,但缓存的概念在多模态计算机视觉 (CV)中至关重要。像YOLO-World这样的模型允许用户使用开放词汇文本提示来detect物体。当用户定义一个类别列表(例如,“人、背包、汽车”)时,模型会计算这些类别的文本嵌入。缓存这些嵌入可以防止模型为每个视频帧重新编码文本提示,从而实现高速实时推理

区分相关术语

  • 对比提示工程提示工程涉及人工努力,旨在设计最佳文本输入以引导模型。提示缓存是一种后端计算优化,用于存储机器对该文本的处理结果。
  • 对比提示微调提示微调是一种迁移学习技术,它更新特定的模型权重(软提示)以使模型适应特定任务。缓存不改变模型的参数;它只在运行时记忆激活状态。

代码示例:视觉中的文本嵌入缓存

以下是 Python 此代码片段演示了在视觉上下文中,使用 ultralytics 包。通过在 YOLO 模型中,文本嵌入会被计算并存储(持久化),使模型能够高效地对多张图像进行预测,而无需重新处理文本描述。

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

为了管理数据集和部署这些优化模型,Ultralytics Platform提供了一个全面的环境,用于数据标注、训练像YOLO26这样的最先进模型,以及监控各种边缘AI设备上的部署性能。

让我们一起共建AI的未来!

开启您的机器学习未来之旅