深圳Yolo 视觉
深圳
立即加入
词汇表

Prompt 缓存

探索即时缓存如何通过降低延迟和成本来优化生成式人工智能。了解如何加速大型语言模型推理和视觉模型(如YOLO26)的运行。

提示缓存是一种主要应用于生成式人工智能的高级优化策略。 生成式人工智能 领域,能显著 降低成本并提升推理响应速度。在 大型语言模型(LLMs)中,文本处理需要将输入转换为称为 令牌。通常,大量输入数据——如详细系统指令、冗长法律文件或 代码库——在不同用户查询中保持不变。提示缓存技术避免为每次新请求重复处理这些固定内容,而是将预先计算的数学状态(通常称为键值缓存)存储在 内存中。这使得 推断引擎 跳过冗余计算,将计算资源集中用于处理用户提示中的动态更新部分。

机制和益处

提示缓存的基本机制依赖于 Transformers的架构实现,该架构采用顺序处理数据的方式。通过识别提示词中重复的前缀,系统能够加载 对应的 注意力机制 状态 直接从高速内存中加载。

  • 降低延迟:缓存技术显著缩短了 推理延迟,特别是首次令牌时间(TTFT)。这确保了实时应用程序(如交互式 聊天机器人能为用户带来近乎瞬时的体验。
  • 成本效益:由于 云计算 服务商通常 按计算时长或令牌处理计费,跳过静态上下文的繁重处理可带来 显著成本节约。
  • 吞吐量提升:通过释放 GPU 资源, 服务器可处理更高并发请求量,从而提升整个 模型服务 基础设施 更具可扩展性。

实际应用

即时缓存正在改变那些依赖大量数据上下文的行业。

  1. 编码助手:在软件开发中,诸如 GitHub Copilot 会利用用户打开文件和仓库结构中的海量上下文信息。通过缓存 嵌入向量 ,该模型 无需为每次按键重新分析整个项目文件结构,即可实时提供代码补全建议。
  2. 法律与医疗分析:专业人士常向 人工智能代理 查询海量静态 文档,例如判例法档案或患者病史记录。通过 检索增强生成(RAG)技术,系统能精准提取相关文本片段。提示缓存机制确保后续问题无需重新计算 检索文档的基础上下文,从而显著提升 问答工作流 工作流。

在计算机视觉中的相关性

虽然传统上与文本相关,但缓存的概念在多模态计算机视觉(CV)中至关重要。 计算机视觉(CV)中具有关键作用。诸如 YOLO 允许用户 通过开放词汇文本提示detect 。当用户定义类别列表(如"人、 背包、汽车")时,模型会为这些类别计算文本嵌入。缓存这些嵌入可避免模型 为每个视频帧重新编码文本提示,从而实现高速 实时推理

区分相关术语

  • 关于提示工程 提示工程涉及人工设计最优文本输入以引导模型。提示缓存则是后端计算优化机制,用于存储机器对该文本的处理结果。
  • 提示词微调提示词微调 迁移学习 技术 用于更新特定 模型权重 (软提示)以 使模型适应特定任务。缓存技术不改变模型参数,仅在 运行时记忆激活状态。

代码示例:视觉任务中的文本嵌入缓存

以下是 Python 该代码片段演示了在视觉上下文中使用 ultralytics 通过在某个位置一次性设置类 YOLO 模型通过计算并存储(持久化)文本嵌入,从而能够高效地对多张图像进行预测,而无需重新处理文本描述。

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

在管理数据集和部署这些优化模型方面, Ultralytics 提供了一个全面的 环境,用于数据标注、训练尖端模型(如 YOLO26等尖端模型,以及监控跨不同 边缘AI 设备上监控部署性能。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入