Prompt Compression

Descobre como a compressão de prompts otimiza a eficiência de IA. Aprende a reduzir a utilização de tokens em LLM, baixar custos e aumentar a velocidade de inferência com Ultralytics YOLO26 hoje mesmo.

A compressão de prompts é uma técnica de otimização avançada projetada para reduzir a extensão e a complexidade do texto de entrada fornecido a Large Language Models (LLMs) e modelos multimodais. Ao remover algoritmicamente palavras redundantes, contexto irrelevante e palavras de paragem (stop words) enquanto preservas o significado semântico central, a compressão de prompts permite que os sistemas de IA processem informações de forma mais eficiente. Este método é cada vez mais crítico para minimizar custos computacionais, reduzir a latência de inferência e impedir que os modelos excedam a sua janela de contexto máxima.

Link to this sectionComo Funciona a Compressão de Prompts#

Ao nível arquitetural, a compressão de prompts utiliza frequentemente modelos menores e especializados ou algoritmos de teoria da informação para avaliar a importância de cada token num prompt fornecido. Técnicas como fusão de tokens e poda baseada em entropia identificam e removem tokens que contribuem pouco para o significado global. Isto garante que a entrada final contenha apenas as informações mais densamente concentradas.

Pesquisas recentes de organizações autorizadas destacam que prompts altamente comprimidos podem manter o desempenho em tarefas de raciocínio complexo, reduzindo significativamente o consumo de tokens. Para desenvolvedores que integram IA em aplicações escaláveis, seguir as diretrizes de otimização de prompts da OpenAI e aproveitar frameworks de compressão é uma prática recomendada padrão para uma implementação eficiente.

Link to this sectionAplicações no Mundo Real#

A compressão de prompts oferece valor imediato em cenários que exigem o processamento rápido de grandes volumes de dados textuais ou visuais:

Retrieval-Augmented Generation (RAG): Em aplicações de pesquisa empresarial, pipelines de RAG recuperam frequentemente dezenas de documentos longos para responder a uma única consulta do utilizador. Algoritmos de compressão de prompts encolhem esses documentos recuperados, destilando-os em resumos factuais concisos antes de os fornecer ao modelo de geração. Isto evita o estouro de tokens e acelera a inferência em tempo real.
Agentes de IA Autónomos: Agentes e chatbots precisam de manter uma memória de longo prazo das interações do utilizador. Em vez de passar todo o histórico da conversa em cada nova consulta, técnicas de compressão resumem turnos de diálogo mais antigos, garantindo que o agente permaneça ciente do contexto sem incorrer em custos computacionais exponenciais.

Link to this sectionCompressão de Prompts vs. Técnicas Relacionadas#

Para construir pipelines robustas de machine learning operations (MLOps), é importante distinguir a compressão de prompts de conceitos relacionados:

Vs. Prompt Caching: O armazenamento em cache (caching) guarda os estados computacionais internos de texto processado anteriormente para evitar o seu reprocessamento. A compressão, por outro lado, altera e encurta ativamente o próprio texto de entrada antes que qualquer processamento ocorra.
Vs. Prompt Engineering: O prompt engineering é a arte feita pelo ser humano de projetar instruções eficazes. A compressão é uma redução algorítmica e automatizada dessas instruções.
Vs. Prompt Enrichment: O enriquecimento expande um prompt adicionando contexto externo, enquanto a compressão reduz o mesmo. São frequentemente usados em conjunto: um sistema pode enriquecer um prompt com resultados de bases de dados e, em seguida, comprimir a carga final (payload) antes da inferência.

Link to this sectionImplementação em Visão Computacional#

Em Visão Computacional (CV), os princípios de compressão de prompts aplicam-se quando usas modelos de vocabulário aberto que aceitam consultas de texto para identificar objetos. Manter as descrições de classes concisas garante uma codificação textual mais rápida e reduz o consumo de memória.

Para ambientes de produção de classe fixa onde a velocidade é fundamental, os desenvolvedores geralmente transitam de modelos baseados em prompts de texto para modelos de arquitetura fixa altamente otimizados, como o Ultralytics YOLO26. Podes gerir conjuntos de dados de forma eficiente e treinar estes modelos de última geração usando a Ultralytics Platform.

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Prompt Compression

Link to this sectionComo Funciona a Compressão de Prompts#

Link to this sectionAplicações no Mundo Real#

Link to this sectionCompressão de Prompts vs. Técnicas Relacionadas#

Link to this sectionImplementação em Visão Computacional#

Explore solutions

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

Vamos construir o futuro da IA juntos!