探索即时缓存如何通过降低延迟和成本来优化生成式人工智能。了解如何加速大型语言模型推理和视觉模型(如YOLO26)的运行。
提示缓存是一种主要应用于生成式人工智能的高级优化策略。 生成式人工智能 领域,能显著 降低成本并提升推理响应速度。在 大型语言模型(LLMs)中,文本处理需要将输入转换为称为 令牌。通常,大量输入数据——如详细系统指令、冗长法律文件或 代码库——在不同用户查询中保持不变。提示缓存技术避免为每次新请求重复处理这些固定内容,而是将预先计算的数学状态(通常称为键值缓存)存储在 内存中。这使得 推断引擎 跳过冗余计算,将计算资源集中用于处理用户提示中的动态更新部分。
提示缓存的基本机制依赖于 Transformers的架构实现,该架构采用顺序处理数据的方式。通过识别提示词中重复的前缀,系统能够加载 对应的 注意力机制 状态 直接从高速内存中加载。
即时缓存正在改变那些依赖大量数据上下文的行业。
虽然传统上与文本相关,但缓存的概念在多模态计算机视觉(CV)中至关重要。 计算机视觉(CV)中具有关键作用。诸如 YOLO 允许用户 通过开放词汇文本提示detect 。当用户定义类别列表(如"人、 背包、汽车")时,模型会为这些类别计算文本嵌入。缓存这些嵌入可避免模型 为每个视频帧重新编码文本提示,从而实现高速 实时推理。
以下是 Python 该代码片段演示了在视觉上下文中使用 ultralytics 通过在某个位置一次性设置类 YOLO 模型通过计算并存储(持久化)文本嵌入,从而能够高效地对多张图像进行预测,而无需重新处理文本描述。
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
在管理数据集和部署这些优化模型方面, Ultralytics 提供了一个全面的 环境,用于数据标注、训练尖端模型(如 YOLO26等尖端模型,以及监控跨不同 边缘AI 设备上监控部署性能。