深圳Yolo 视觉
深圳
立即加入
词汇表

提示压缩

了解提示词压缩如何优化 AI 效率。立即使用Ultralytics 学习如何减少大型语言模型(LLM)的令牌使用量、降低成本并提升推理速度。

提示压缩是一种先进的优化技术,旨在缩短提供给 大型语言模型(LLMs) 多模态模型的输入文本的长度并降低其复杂度。 通过算法 去除冗余词汇、无关上下文和停用词,同时保留核心语义,提示词压缩 使人工智能系统能够更高效地处理信息。该方法对于 降低计算成本、减少 推理延迟以及防止模型 超出最大上下文窗口,正变得日益关键。

即时压缩的工作原理

在架构层面,提示压缩通常利用更小、更专业的模型或信息论 算法来评估给定提示中每个令牌的重要性。诸如 令牌合并和基于熵的剪枝等技术,能够识别并移除那些 对整体含义贡献甚微的令牌。这确保了最终输入仅包含最紧凑的 信息。

权威机构最近的研究表明,高度压缩的提示词在 复杂推理任务中既能保持性能,又能显著降低令牌消耗。对于将 AI 集成到可扩展 应用程序中的开发者而言,遵循 OpenAI 的提示词优化指南并 利用压缩框架,是实现高效部署的标准最佳实践。

实际应用

在需要快速处理大量文本或视觉数据的场景中, 提示词压缩能立即发挥作用:

  • 检索增强生成(RAG) 在企业搜索应用中,RAG 管道通常会检索数十份长文档来回答单个用户 的查询。提示压缩算法会缩减这些检索到的文档,将其提炼成简洁的事实性 摘要,然后将其输入生成模型。这可以防止令牌溢出,并加速 实时推理
  • 自主人工智能代理代理和 聊天机器人必须保留用户 交互的长期记忆。与将完整的对话历史传递给每个新查询不同,压缩技术 会对较早的对话轮次进行摘要,从而确保代理能够保持上下文感知能力,同时避免产生指数级的计算 成本。

提示词压缩与相关技术

要构建稳健的 机器学习运维(MLOps) 管道,区分提示词压缩与相关概念至关重要:

  • 提示词缓存相比:缓存 会存储先前处理过的文本的内部计算状态,以避免重新计算。而压缩则 会在任何处理发生之前,主动修改并缩短输入文本本身。
  • 提示词工程的对比: 提示词工程是一门由人类主导的、旨在设计有效指令的技艺。而压缩则是对这些指令进行自动化的、 基于算法的精简。
  • 提示语增强相比: 增强是通过添加外部上下文来扩展提示语,而压缩则是对其进行精简。这两种方法通常 结合使用:系统可能会先利用数据库结果对提示语进行增强,然后在推理前对最终的输入进行压缩。

在计算机视觉中的应用

计算机视觉(CV)领域,当使用接受文本查询来识别物体的开放词汇表模型时,会应用提示压缩 原则。保持类别 描述的简洁性,可以加快文本编码速度并减少内存开销。

在速度至关重要的固定类别生产环境中,开发人员通常会从基于文本提示的 模型过渡到高度优化的固定架构模型,例如 Ultralytics 。您可以利用Ultralytics 高效管理数据集并 训练这些最先进的模型。

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

让我们一起共建AI的未来!

开启您的机器学习未来之旅