Aumente a eficiência da IA com o cache imediato! Saiba como reduzir a latência, cortar custos e escalar aplicativos de IA usando essa técnica poderosa.
A memorização de prompts é uma técnica de otimização utilizada principalmente com modelos de linguagem extensa (LLM) para acelerar o processo de inferência. Funciona armazenando os resultados computacionais intermédios, especificamente os estados chave-valor (KV) no mecanismo de atenção, de uma parte inicial de um prompt. Quando um novo pedido partilha o mesmo início (prefixo), o modelo pode reutilizar estes estados em cache em vez de os recalcular, reduzindo significativamente a latência e a carga computacional necessária para gerar uma resposta. Isto é especialmente eficaz em aplicações que envolvem IA de conversação ou consultas repetitivas.
Quando um LLM processa uma sequência de texto, como uma frase ou um parágrafo, calcula as pontuações de atenção para cada token na sua janela de contexto. Esta parte do processo é computacionalmente dispendiosa, especialmente no caso de mensagens longas. A ideia central por detrás da memorização de mensagens, frequentemente designada por memorização KV, é evitar trabalho redundante. Se o modelo já tiver processado a frase "Traduzir para francês o seguinte texto em inglês:", armazena o estado interno resultante. Quando mais tarde recebe a mensagem "Traduzir o seguinte texto em inglês para francês: 'Olá, mundo!'", pode carregar o estado em cache para a frase inicial e começar a calcular apenas a nova parte, "'Olá, mundo!'". Isto torna o processo de geração de texto muito mais rápido para pedidos subsequentes e semelhantes. Sistemas como o vLLM são projetados para gerenciar eficientemente esse processo, melhorando o rendimento geral.
O caching de prompts é uma otimização crucial para muitos sistemas de IA do mundo real, melhorando a experiência do utilizador ao fornecer respostas mais rápidas.
É útil distinguir o caching imediato de outras técnicas relacionadas:
Embora a memorização de mensagens esteja predominantemente associada aos LLM, o princípio subjacente à memorização de cálculos pode aplicar-se potencialmente a modelos multimodais complexos em que as mensagens de texto interagem com outras modalidades. No entanto, é menos comum em tarefas normais de visão por computador (CV), como a deteção de objectos utilizando modelos como o Ultralytics YOLO. Plataformas como o Ultralytics HUB simplificam a implantação e o gerenciamento de modelos de IA, onde otimizações como o armazenamento em cache podem ser cruciais para o desempenho em ambientes de produção.