词汇表

Prompt 缓存

通过提示缓存提高 AI 效率！了解如何使用这种强大的技术来减少延迟、降低成本和扩展 AI 应用程序。

提示缓存是一种优化技术，主要用于大型语言模型（LLM），以加快推理过程。它的工作原理是存储提示语初始部分的中间计算结果。当一个新的提示具有相同的开头（称为前缀）时，模型可以重用这些缓存状态，而不是重新计算。这种方法大大减少了生成响应所需的延迟和计算负荷，在涉及对话式人工智能或重复查询的应用中尤其有效。通过避免冗余计算，及时缓存提高了吞吐量并降低了运营成本。

Prompt 缓存的工作原理

当 LLM 处理文本序列时，它会计算其上下文窗口中每个标记的内部状态。这个过程的计算量很大，尤其是对于长提示符。提示缓存（通常称为 KV 缓存）的核心理念是保存这些内部状态，特别是注意机制中的键值（KV）对。例如，如果一个模型处理了 "将以下英文文本翻译成法文："的前缀，它就会存储所产生的状态。当它随后收到类似 "将以下英文文本翻译成法文：'Hello, world!'"的完整提示时，它可以加载初始短语的缓存状态，并只开始计算新的部分。这使得后续类似请求的文本生成过程变得更快。开源 vLLM 项目等系统旨在有效管理这一过程，提高推理引擎的整体吞吐量。

实际应用

提示缓存是现实世界中许多人工智能（AI）系统的一项重要优化措施，通过提供更快的响应来提升用户体验。

交互式聊天机器人和虚拟助理：在聊天机器人对话中，每个回合都建立在之前的交流基础上。缓存对话历史记录作为前缀，可使模型生成下一个响应，而无需重新处理整个对话。这使得交互更加流畅、反应更快，是现代虚拟助手性能的基础，并改善了Poe 等平台的用户体验。
代码生成和完成：人工智能驱动的编码助手（如GitHub Copilot）经常使用缓存。文件中的现有代码是一个长提示。通过缓存这些代码的 KV 状态，模型可以快速生成下一行的建议或完成一个函数，而无需在每次输入字符时重新分析整个文件，从而实现实时推理。这项技术是人工智能代码助手工作的关键部分。

Prompt 缓存与相关概念

将及时缓存与机器学习（ML）中的其他相关技术区分开来很有帮助：

及时工程:重点是设计有效的提示，以从人工智能模型中获得所需的反应。无论提示设计得如何，缓存都能优化这些提示的执行。
提示丰富:包括在用户提示发送到模型之前，为其添加上下文或说明信息。缓存是在模型处理（可能经过丰富的）提示时进行的。
提示调整和 LoRA:这些都是参数效率微调（PEFT）方法，通过训练少量的附加参数集来调整模型的行为。缓存是一种不改变模型权重本身的推理时优化方法。
检索-增强生成（RAG）:通过从外部知识库中检索相关信息并将其添加到提示的上下文中来增强提示。虽然 RAG 会修改输入，但缓存仍可用于处理组合提示。
标准输出缓存：由内容分发网络（CDN）管理的传统网络缓存存储的是请求的最终输出。提示缓存则在模型的处理管道中存储中间计算状态，从而实现更灵活的重复使用。

虽然提示缓存主要与 LLM 有关，但缓存计算的基本原理也适用于文本提示与其他模式交互的复杂多模式模型。不过，在使用Ultralytics YOLO11 等模型进行物体检测等标准计算机视觉（CV）任务中，这种做法并不常见。在模型部署平台中，缓存等优化措施对生产环境中的性能至关重要，详见Anyscale和英伟达等供应商提供的资源。

Prompt 缓存

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

Prompt 缓存的工作原理

实际应用

Prompt 缓存与相关概念

阅读更多此类别的内容

使用 ExecuTorch 集成部署 Ultralytics YOLO 模型

Ultralytics 在 2025 年 PyTorch 大会上的主要亮点

利用自我监督学习对图像进行去噪处理

加入 Ultralytics 社区