Prompt Caching
Descobre como o cache de prompts otimiza a IA generativa reduzindo a latência e os custos. Aprende o seu papel em LLMs e visão computacional em tempo real com o Ultralytics YOLO26.
O prompt caching é uma estratégia de otimização avançada usada principalmente em IA generativa para reduzir custos significativamente e melhorar os tempos de resposta durante a inferência. No campo dos Grandes Modelos de Linguagem (LLMs), o processamento de texto requer a conversão de entradas em sequências numéricas conhecidas como tokens. Frequentemente, uma grande parte dos dados de entrada — como uma instrução de sistema detalhada, um documento legal longo ou uma base de código — permanece estática em muitas consultas de usuário diferentes. Em vez de reprocessar essas seções inalteradas para cada nova solicitação, o prompt caching armazena os estados matemáticos pré-computados (geralmente chamados de cache Key-Value) na memória. Isso permite que o motor de inferência ignore cálculos redundantes, concentrando o poder computacional apenas nas partes novas e dinâmicas do prompt do usuário.
Link to this sectionMecanismos e Benefícios#
A mecânica fundamental do prompt caching baseia-se na arquitetura de Transformers, que processam dados sequencialmente. Ao identificar o prefixo repetitivo de um prompt, o sistema pode carregar os estados do mecanismo de atenção correspondentes diretamente da memória de alta velocidade.
- Latência Reduzida: O cache reduz drasticamente a latência de inferência, especificamente o Tempo para o Primeiro Token (TTFT). Isso garante que aplicativos em tempo real, como chatbots interativos, pareçam instantâneos para o usuário.
- Eficiência de Custos: Como os provedores de Computação em Nuvem geralmente cobram com base na duração da computação ou no processamento de tokens, pular o trabalho pesado do contexto estático leva a economias substanciais.
- Aumento de Throughput: Ao liberar recursos de GPU, os servidores podem lidar com um volume maior de solicitações simultâneas, tornando toda a infraestrutura de model serving mais escalável.
Link to this sectionAplicações no Mundo Real#
O prompt caching está transformando setores que dependem de um contexto de dados intenso.
-
Assistentes de Programação: No desenvolvimento de software, ferramentas como o GitHub Copilot utilizam grandes quantidades de contexto a partir dos arquivos abertos e da estrutura de repositório do usuário. Ao armazenar em cache os embeddings da base de código, o modelo pode fornecer sugestões de preenchimento de código em tempo real sem reanalisar toda a estrutura de arquivos do projeto a cada tecla pressionada.
-
Análise Jurídica e Médica: Profissionais frequentemente consultam Agentes de IA em documentos estáticos massivos, como arquivos de jurisprudência ou registros de histórico de pacientes. Usando a Geração Aumentada por Recuperação (RAG), o sistema recupera trechos relevantes de texto. O prompt caching garante que o contexto fundamental desses documentos recuperados não precise ser recomputado para perguntas subsequentes, otimizando o fluxo de trabalho de Question Answering.
Link to this sectionRelevância em Visão Computacional#
Embora tradicionalmente associado ao texto, o conceito de cache é vital na Visão Computacional (CV) multimodal. Modelos como o YOLO-World permitem que os usuários detectem objetos usando prompts de texto de vocabulário aberto. Quando um usuário define uma lista de classes (por exemplo, "pessoa, mochila, carro"), o modelo calcula embeddings de texto para essas classes. Armazenar esses embeddings em cache evita que o modelo precise re-codificar os prompts de texto para cada frame de vídeo, permitindo uma Inferência em Tempo Real de alta velocidade.
Link to this sectionDistinguir Termos Relacionados#
- Vs. Engenharia de Prompt: A engenharia de prompt envolve o esforço humano de projetar a entrada de texto ideal para orientar o modelo. O prompt caching é uma otimização computacional de backend que armazena o processamento da máquina sobre esse texto.
- Vs. Ajuste de Prompt: O ajuste de prompt (prompt tuning) é uma técnica de Transfer Learning que atualiza Pesos de Modelo específicos (prompts suaves) para adaptar um modelo a uma tarefa. O cache não altera os parâmetros do modelo; ele apenas memoriza os estados de ativação durante a execução.
Link to this sectionExemplo de Código: Armazenando Embeddings de Texto em Visão#
O trecho de Python a seguir demonstra o conceito de "cache" de um prompt em um contexto de visão usando o pacote ultralytics. Ao definir as classes uma vez em um modelo YOLO-World, os embeddings de texto são calculados e armazenados (persistidos), permitindo que o modelo preveja com eficiência em várias imagens sem reprocessar a descrição de texto.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")Para gerenciar conjuntos de dados e implantar esses modelos otimizados, a Ultralytics Platform fornece um ambiente abrangente para anotar dados, treinar modelos de última geração como o YOLO26 e monitorar o desempenho da implantação em vários dispositivos de Edge AI.






