Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Cache de Prompt

Aumente a eficiência da IA com o cache de prompts! Aprenda como reduzir a latência, cortar custos e dimensionar aplicativos de IA usando esta técnica poderosa.

O armazenamento em cache de prompts é uma técnica de otimização utilizada principalmente com Modelos de Linguagem Grandes (LLM) para acelerar o processo de inferência. Funciona armazenando os resultados computacionais intermédios de uma parte inicial de um prompt. Quando uma nova pergunta partilha o mesmo início, conhecido como prefixo, o modelo pode reutilizar estes estados armazenados em cache em vez de os voltar a calcular. Este método reduz significativamente a latência e a carga computacional necessária para gerar uma resposta, tornando-o especialmente eficaz em aplicações que envolvem IA conversacional ou consultas repetitivas. Ao evitar cálculos redundantes, o armazenamento em cache imediato melhora o rendimento e reduz os custos operacionais.

Como o Prompt Caching Funciona

Quando uma LLM processa uma sequência de texto, calcula os estados internos de cada token dentro da sua janela de contexto. Esta é uma parte computacionalmente cara do processo, particularmente para prompts longos. A ideia central por detrás da memorização de prompts, frequentemente designada por memorização KV, é guardar estes estados internos, especificamente os pares chave-valor (KV) no mecanismo de atenção. Por exemplo, se um modelo processa o prefixo "Traduzir o seguinte texto em inglês para francês:", armazena o estado resultante. Quando mais tarde recebe um pedido completo como "Traduzir o seguinte texto em inglês para francês: 'Olá, mundo!'", pode carregar o estado em cache para a frase inicial e começar a computação apenas para a nova parte. Isto torna o processo de geração de texto muito mais rápido para pedidos subsequentes e semelhantes. Sistemas como o projeto de código aberto vLLM foram concebidos para gerir eficazmente este processo, melhorando o rendimento global do motor de inferência.

Aplicações no Mundo Real

O caching de prompts é uma otimização crucial para muitos sistemas de Inteligência Artificial (IA) do mundo real, melhorando a experiência do utilizador ao fornecer respostas mais rápidas.

  • Chatbots interactivos e assistentes virtuais: Numa conversa de chatbot, cada turno baseia-se em trocas anteriores. O armazenamento em cache do histórico da conversa como um prefixo permite que o modelo gere a próxima resposta sem reprocessar todo o diálogo. Isto conduz a uma interação muito mais fluida e reactiva, o que é fundamental para o desempenho dos assistentes virtuais modernos e melhora a experiência do utilizador em plataformas como a Poe.
  • Geração e conclusão de código: Os assistentes de codificação alimentados por IA, como o GitHub Copilot, usam frequentemente o cache. O código existente em um arquivo serve como um longo prompt. Ao armazenar em cache os estados KV desse código, o modelo pode gerar rapidamente sugestões para a próxima linha ou concluir uma função sem precisar reanalisar o arquivo inteiro sempre que um caractere é digitado, possibilitando a inferência em tempo real. Esta técnica é uma parte fundamental do funcionamento dos assistentes de código de IA.

Cache de Prompt vs. Conceitos Relacionados

É útil distinguir o caching imediato de outras técnicas relacionadas com a aprendizagem automática (ML):

  • Engenharia rápida: Centra-se na conceção de prompts eficazes para obter as respostas desejadas de um modelo de IA. O armazenamento em cache optimiza a execução destes prompts, independentemente da forma como são concebidos.
  • Enriquecimento de prompts: Envolve a adição de contexto ou de informações de esclarecimento ao pedido de um utilizador antes de este ser enviado para o modelo. O armazenamento em cache ocorre durante o processamento do prompt (potencialmente enriquecido) pelo modelo.
  • Ajuste do prompt e LoRA: Estes são métodos de afinação eficiente de parâmetros (PEFT) que adaptam o comportamento de um modelo através do treino de pequenos conjuntos de parâmetros adicionais. O armazenamento em cache é uma otimização em tempo de inferência que não altera os pesos do modelo.
  • Geração Aumentada por Recuperação (RAG): Melhora os pedidos recuperando informações relevantes de bases de conhecimento externas e adicionando-as ao contexto do pedido. Embora o RAG modifique a entrada, o armazenamento em cache pode ainda ser aplicado ao processamento do pedido combinado.
  • Cache de saída padrão: O cache tradicional da Web, gerenciado por uma rede de distribuição de conteúdo (CDN), armazena a saída final de uma solicitação. O armazenamento em cache imediato armazena estados computacionais intermediários no pipeline de processamento do modelo, permitindo uma reutilização mais flexível.

Embora a memorização de mensagens esteja predominantemente associada aos LLM, o princípio subjacente à memorização de cálculos pode aplicar-se em modelos multimodais complexos em que as mensagens de texto interagem com outras modalidades. No entanto, é menos comum em tarefas normais de visão por computador (CV), como a deteção de objectos utilizando modelos como o Ultralytics YOLO11. É nas plataformas de implementação de modelos que as optimizações, como o armazenamento em cache, se tornam cruciais para o desempenho em ambientes de produção, conforme detalhado em recursos de fornecedores como a Anyscale e a NVIDIA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência