Aumente a eficiência da IA com o cache de prompts! Aprenda como reduzir a latência, cortar custos e dimensionar aplicativos de IA usando esta técnica poderosa.
O armazenamento em cache de prompts é uma técnica de otimização utilizada principalmente com Modelos de Linguagem Grandes (LLM) para acelerar o processo de inferência. Funciona armazenando os resultados computacionais intermédios de uma parte inicial de um prompt. Quando uma nova pergunta partilha o mesmo início, conhecido como prefixo, o modelo pode reutilizar estes estados armazenados em cache em vez de os voltar a calcular. Este método reduz significativamente a latência e a carga computacional necessária para gerar uma resposta, tornando-o especialmente eficaz em aplicações que envolvem IA conversacional ou consultas repetitivas. Ao evitar cálculos redundantes, o armazenamento em cache imediato melhora o rendimento e reduz os custos operacionais.
Quando uma LLM processa uma sequência de texto, calcula os estados internos de cada token dentro da sua janela de contexto. Esta é uma parte computacionalmente cara do processo, particularmente para prompts longos. A ideia central por detrás da memorização de prompts, frequentemente designada por memorização KV, é guardar estes estados internos, especificamente os pares chave-valor (KV) no mecanismo de atenção. Por exemplo, se um modelo processa o prefixo "Traduzir o seguinte texto em inglês para francês:", armazena o estado resultante. Quando mais tarde recebe um pedido completo como "Traduzir o seguinte texto em inglês para francês: 'Olá, mundo!'", pode carregar o estado em cache para a frase inicial e começar a computação apenas para a nova parte. Isto torna o processo de geração de texto muito mais rápido para pedidos subsequentes e semelhantes. Sistemas como o projeto de código aberto vLLM foram concebidos para gerir eficazmente este processo, melhorando o rendimento global do motor de inferência.
O caching de prompts é uma otimização crucial para muitos sistemas de Inteligência Artificial (IA) do mundo real, melhorando a experiência do utilizador ao fornecer respostas mais rápidas.
É útil distinguir o caching imediato de outras técnicas relacionadas com a aprendizagem automática (ML):
Embora a memorização de mensagens esteja predominantemente associada aos LLM, o princípio subjacente à memorização de cálculos pode aplicar-se em modelos multimodais complexos em que as mensagens de texto interagem com outras modalidades. No entanto, é menos comum em tarefas normais de visão por computador (CV), como a deteção de objectos utilizando modelos como o Ultralytics YOLO11. É nas plataformas de implementação de modelos que as optimizações, como o armazenamento em cache, se tornam cruciais para o desempenho em ambientes de produção, conforme detalhado em recursos de fornecedores como a Anyscale e a NVIDIA.