Glossário

Cache de Prompt

Aumente a eficiência da IA com o cache de prompts! Aprenda como reduzir a latência, cortar custos e dimensionar aplicativos de IA usando esta técnica poderosa.

O armazenamento em cache de prompts é uma técnica de otimização utilizada principalmente com Modelos de Linguagem Grandes (LLM) para acelerar o processo de inferência. Funciona armazenando os resultados computacionais intermédios de uma parte inicial de um prompt. Quando uma nova pergunta partilha o mesmo início, conhecido como prefixo, o modelo pode reutilizar estes estados armazenados em cache em vez de os voltar a calcular. Este método reduz significativamente a latência e a carga computacional necessária para gerar uma resposta, tornando-o especialmente eficaz em aplicações que envolvem IA conversacional ou consultas repetitivas. Ao evitar cálculos redundantes, o armazenamento em cache imediato melhora o rendimento e reduz os custos operacionais.

Como o Prompt Caching Funciona

Quando uma LLM processa uma sequência de texto, calcula os estados internos de cada token dentro da sua janela de contexto. Esta é uma parte computacionalmente cara do processo, particularmente para prompts longos. A ideia central por detrás da memorização de prompts, frequentemente designada por memorização KV, é guardar estes estados internos, especificamente os pares chave-valor (KV) no mecanismo de atenção. Por exemplo, se um modelo processa o prefixo "Traduzir o seguinte texto em inglês para francês:", armazena o estado resultante. Quando mais tarde recebe um pedido completo como "Traduzir o seguinte texto em inglês para francês: 'Olá, mundo!'", pode carregar o estado em cache para a frase inicial e começar a computação apenas para a nova parte. Isto torna o processo de geração de texto muito mais rápido para pedidos subsequentes e semelhantes. Sistemas como o projeto de código aberto vLLM foram concebidos para gerir eficazmente este processo, melhorando o rendimento global do motor de inferência.

Aplicações no Mundo Real

O caching de prompts é uma otimização crucial para muitos sistemas de Inteligência Artificial (IA) do mundo real, melhorando a experiência do utilizador ao fornecer respostas mais rápidas.

Chatbots interactivos e assistentes virtuais: Numa conversa de chatbot, cada turno baseia-se em trocas anteriores. O armazenamento em cache do histórico da conversa como um prefixo permite que o modelo gere a próxima resposta sem reprocessar todo o diálogo. Isto conduz a uma interação muito mais fluida e reactiva, o que é fundamental para o desempenho dos assistentes virtuais modernos e melhora a experiência do utilizador em plataformas como a Poe.
Geração e conclusão de código: Os assistentes de codificação alimentados por IA, como o GitHub Copilot, usam frequentemente o cache. O código existente em um arquivo serve como um longo prompt. Ao armazenar em cache os estados KV desse código, o modelo pode gerar rapidamente sugestões para a próxima linha ou concluir uma função sem precisar reanalisar o arquivo inteiro sempre que um caractere é digitado, possibilitando a inferência em tempo real. Esta técnica é uma parte fundamental do funcionamento dos assistentes de código de IA.

Cache de Prompt vs. Conceitos Relacionados

É útil distinguir o caching imediato de outras técnicas relacionadas com a aprendizagem automática (ML):

Engenharia rápida: Centra-se na conceção de prompts eficazes para obter as respostas desejadas de um modelo de IA. O armazenamento em cache optimiza a execução destes prompts, independentemente da forma como são concebidos.
Enriquecimento de prompts: Envolve a adição de contexto ou de informações de esclarecimento ao pedido de um utilizador antes de este ser enviado para o modelo. O armazenamento em cache ocorre durante o processamento do prompt (potencialmente enriquecido) pelo modelo.
Ajuste do prompt e LoRA: Estes são métodos de afinação eficiente de parâmetros (PEFT) que adaptam o comportamento de um modelo através do treino de pequenos conjuntos de parâmetros adicionais. O armazenamento em cache é uma otimização em tempo de inferência que não altera os pesos do modelo.
Geração Aumentada por Recuperação (RAG): Melhora os pedidos recuperando informações relevantes de bases de conhecimento externas e adicionando-as ao contexto do pedido. Embora o RAG modifique a entrada, o armazenamento em cache pode ainda ser aplicado ao processamento do pedido combinado.
Cache de saída padrão: O cache tradicional da Web, gerenciado por uma rede de distribuição de conteúdo (CDN), armazena a saída final de uma solicitação. O armazenamento em cache imediato armazena estados computacionais intermediários no pipeline de processamento do modelo, permitindo uma reutilização mais flexível.

Embora a memorização de mensagens esteja predominantemente associada aos LLM, o princípio subjacente à memorização de cálculos pode aplicar-se em modelos multimodais complexos em que as mensagens de texto interagem com outras modalidades. No entanto, é menos comum em tarefas normais de visão por computador (CV), como a deteção de objectos utilizando modelos como o Ultralytics YOLO11. É nas plataformas de implementação de modelos que as optimizações, como o armazenamento em cache, se tornam cruciais para o desempenho em ambientes de produção, conforme detalhado em recursos de fornecedores como a Anyscale e a NVIDIA.

Cache de Prompt

Treine modelos Ultralytics YOLO para otimizar fluxos de trabalho em todos os setores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como o Prompt Caching Funciona

Aplicações no Mundo Real

Cache de Prompt vs. Conceitos Relacionados

Leia mais nesta categoria

Implantar modelos YOLO do Ultralytics usando a integração do ExecuTorch

Principais destaques da Ultralytics na Conferência PyTorch 2025

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

Junte-se à comunidade Ultralytics