Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Compressão imediata

Descubra como a compressão de prompts otimiza a eficiência da IA. Aprenda hoje mesmo a reduzir o consumo de tokens dos LLM, diminuir os custos e aumentar a velocidade de inferência com Ultralytics .

A compressão de prompts é uma técnica avançada de otimização concebida para reduzir o comprimento e a complexidade do texto de entrada fornecido a modelos de linguagem de grande escala (LLMs) e modelos multimodais. Ao remover algoritmicamente palavras redundantes, contexto irrelevante e palavras de preenchimento, preservando ao mesmo tempo o significado semântico essencial, a compressão de prompts permite que os sistemas de IA processem a informação de forma mais eficiente. Este método é cada vez mais crucial para minimizar os custos computacionais, reduzir a latência de inferência e impedir que os modelos excedam a sua janela de contexto máxima.

Como funciona a compressão imediata

No âmbito da arquitetura, a compressão de prompts recorre frequentemente a modelos mais pequenos e especializados ou a algoritmos baseados na teoria da informação para avaliar a importância de cada token num determinado prompt. Técnicas como a fusão de tokens e a poda baseada na entropia identificam e removem tokens que pouco contribuem para o significado global. Isto garante que a entrada final contenha apenas a informação mais condensada .

Estudos recentes realizados por organizações de referência destacam que prompts altamente comprimidos conseguem manter o desempenho em tarefas de raciocínio complexas, reduzindo simultaneamente de forma significativa o consumo de tokens. Para os programadores que integram IA em aplicações escaláveis, seguir as orientações de otimização de prompts da OpenAI e utilizar estruturas de compressão constitui uma prática recomendada padrão para uma implementação eficiente.

Aplicações no Mundo Real

A compressão imediata oferece vantagens imediatas em cenários que exigem o processamento rápido de grandes quantidades de dados textuais ou visuais :

  • Geração Aumentada por Recuperação (RAG): Nas aplicações de pesquisa empresarial, os fluxos de trabalho RAG recuperam frequentemente dezenas de documentos extensos para responder a uma única consulta do utilizador. Os algoritmos de compressão de prompts reduzem esses documentos recuperados, sintetizando-os em resumos factuais concisos antes de os enviar para o modelo de geração. Isto evita o excesso de tokens e acelera a inferência em tempo real.
  • Agentes de IA autónomos: Os agentes e os chatbots devem manter uma memória de longo prazo das interações com o utilizador. Em vez de passar todo o histórico da conversa para cada nova consulta, as técnicas de compressão resumem as trocas de diálogo anteriores, garantindo que o agente mantenha a consciência do contexto sem incorrer em custos computacionais exponenciais.

Compressão imediata vs. técnicas relacionadas

Para criar pipelines robustos de operações de aprendizagem automática (MLOps), é importante distinguir a compressão de prompts de conceitos relacionados:

  • Em comparação com o armazenamento em cache de prompts: o armazenamento em cache armazena os estados computacionais internos do texto processado anteriormente para evitar que sejam recalculados. A compressão, por outro lado, altera e encurta ativamente o próprio texto de entrada antes de qualquer processamento ocorrer.
  • Vs. Engenharia de prompts: A engenharia de prompts é a arte, conduzida por humanos, de conceber instruções eficazes. A compressão é uma redução automatizada e algorítmica dessas instruções.
  • vs. Enriquecimento de prompts: O enriquecimento amplia um prompt ao adicionar contexto externo, enquanto a compressão o reduz. São frequentemente utilizados em conjunto: um sistema pode enriquecer um prompt com resultados de uma base de dados e, em seguida, comprimir a carga útil final antes da inferência.

Aplicação na Visão Computacional

Na Visão Computacional (CV), os princípios de compressão imediata aplicam-se quando se utilizam modelos de vocabulário aberto que aceitam consultas de texto para identificar objetos. Manter as descrições das classes concisas garante uma codificação textual mais rápida e reduz a sobrecarga de memória.

Em ambientes de produção de classe fixa, onde a velocidade é fundamental, os programadores costumam passar de modelos baseados em prompts de texto para modelos altamente otimizados e de arquitetura fixa, como Ultralytics . É possível gerir conjuntos de dados de forma eficiente e treinar estes modelos de última geração utilizando a Ultralytics .

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina