Prompt Compression

探索提示词压缩如何优化 AI 效率。立即通过 Ultralytics YOLO26 学习如何减少 LLM Token 使用量、降低成本并提升推理速度。

提示词压缩是一种先进的优化技术，旨在减少提供给大型语言模型 (LLMs) 和多模态模型的输入文本的长度与复杂度。通过以算法方式剔除冗余词汇、无关上下文和停用词，同时保留核心语义，提示词压缩使 AI 系统能够更高效地处理信息。这种方法对于最小化计算成本、减少推理延迟以及防止模型超过其最大上下文窗口变得越来越关键。

Link to this section提示词压缩的工作原理#

在架构层面，提示词压缩通常利用较小的专用模型或信息论算法来评估给定提示词中每个 Token 的重要性。Token 合并与基于熵的剪枝等技术可以识别并移除对整体语义贡献极小的 Token。这确保了最终输入仅包含最密集的信息。

来自权威机构的最新研究强调，高度压缩的提示词在处理复杂推理任务时仍能保持性能，同时显著降低 Token 消耗。对于将 AI 集成到可扩展应用中的开发者而言，遵循 OpenAI 的提示词优化指南并利用压缩框架是高效部署的标准最佳实践。

Link to this section实际应用#

提示词压缩在需要快速处理大量文本或视觉数据的场景中具有直接价值：

检索增强生成 (RAG)： 在企业搜索应用中，RAG 流水线通常会检索数十份长文档来回答用户的单个查询。提示词压缩算法会压缩这些检索到的文档，在将其输入生成模型之前将其提炼为简洁的事实摘要。这防止了 Token 溢出并加速了实时推理。
自动 AI 代理： 代理和聊天机器人必须保持用户交互的长期记忆。与其将整个对话历史记录输入到每个新查询中，压缩技术会总结较早的对话轮次，确保代理在不产生指数级计算成本的情况下保持上下文感知能力。

Link to this section提示词压缩与相关技术的对比#

为了构建健壮的机器学习运维 (MLOps) 流水线，区分提示词压缩与相关概念非常重要：

与提示词缓存的区别： 缓存存储了先前处理过的文本的内部计算状态，以避免重新计算。而压缩则是在任何处理发生之前，主动修改并缩短输入文本本身。
与提示词工程的区别： 提示词工程是人工设计有效指令的技艺。压缩则是对这些指令的自动化、算法化缩减。
与提示词增强的区别： 增强通过添加外部上下文来扩充提示词，而压缩则会减少它。它们通常结合使用：系统可能会使用数据库结果来增强提示词，然后在推理之前压缩最终的有效载荷。

Link to this section在计算机视觉中的实现#

在计算机视觉 (CV) 中，当使用接受文本查询来识别对象的开放词汇模型时，提示词压缩原则同样适用。保持类描述的简洁性可以确保更快的文本编码并减少内存开销。

对于速度至关重要的固定类别生产环境，开发者通常会从文本提示模型过渡到高度优化的固定架构模型，例如 Ultralytics YOLO26。你可以使用 Ultralytics 平台高效管理数据集并训练这些最先进的模型。

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()