了解提示缓存如何通过降低延迟和成本来优化生成式 AI。探索其在 LLM 和 Ultralytics YOLO26 实时计算机视觉中的作用。
提示缓存是一种先进的优化策略,主要用于生成式AI,以显著降低成本并缩短推理时的响应时间。在大型语言模型 (LLMs)领域,文本处理需要将输入转换为数值序列,即token。通常,大部分输入数据(例如详细的系统指令、冗长的法律文档或代码库)在许多不同的用户查询中保持不变。提示缓存不是为每个新请求重新处理这些不变的部分,而是将预先计算的数学状态(通常称为键值缓存)存储在内存中。这使得推理引擎能够跳过冗余计算,将计算能力集中在新颖、动态的用户提示部分。
提示缓存的基本机制依赖于Transformer的架构,该架构按顺序处理数据。通过识别提示的重复前缀,系统可以直接从高速内存中加载相应的注意力机制状态。
提示缓存正在改变那些依赖大量数据上下文的行业。
虽然传统上与文本相关,但缓存的概念在多模态计算机视觉 (CV)中至关重要。像YOLO-World这样的模型允许用户使用开放词汇文本提示来detect物体。当用户定义一个类别列表(例如,“人、背包、汽车”)时,模型会计算这些类别的文本嵌入。缓存这些嵌入可以防止模型为每个视频帧重新编码文本提示,从而实现高速实时推理。
以下是 Python 此代码片段演示了在视觉上下文中,使用 ultralytics 包。通过在 YOLO 模型中,文本嵌入会被计算并存储(持久化),使模型能够高效地对多张图像进行预测,而无需重新处理文本描述。
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
为了管理数据集和部署这些优化模型,Ultralytics Platform提供了一个全面的环境,用于数据标注、训练像YOLO26这样的最先进模型,以及监控各种边缘AI设备上的部署性能。

开启您的机器学习未来之旅