Descubra como o cache imediato otimiza a IA generativa, reduzindo a latência e os custos. Aprenda a acelerar a inferência LLM e modelos de visão como o YOLO26.
O cache rápido é uma estratégia de otimização avançada usada principalmente em IA generativa para reduzir significativamente os custos e melhorar os tempos de resposta durante a inferência. No domínio dos grandes modelos de linguagem (LLMs), o processamento de texto requer a conversão de entradas em sequências numéricas conhecidas como tokens. Frequentemente, uma grande parte dos dados de entrada — como uma instrução detalhada do sistema, um documento jurídico extenso ou uma base de código — permanece estática em muitas consultas diferentes dos utilizadores. Em vez de reprocessar essas seções imutáveis para cada nova solicitação, o cache de prompt armazena os estados matemáticos pré-calculados (frequentemente chamados de cache de chave-valor) na memória. Isso permite que o motor de inferência pular cálculos redundantes, concentrando o poder computacional apenas nas partes novas e dinâmicas do prompt do utilizador.
A mecânica fundamental do cache imediato depende da arquitetura dos Transformers, que processam os dados sequencialmente. Ao identificar o prefixo repetitivo de um prompt, o sistema pode carregar o mecanismo de atenção mecanismo de atenção estados diretamente da memória de alta velocidade.
O armazenamento em cache instantâneo está a transformar os setores que dependem de um contexto de dados pesado.
Embora tradicionalmente associado ao texto, o conceito de cache é vital na visão computacional multimodal Visão Computacional (CV). Modelos como o YOLO permitem que os utilizadores detect usando prompts de texto de vocabulário aberto. Quando um utilizador define uma lista de classes (por exemplo, "pessoa, mochila, carro"), o modelo calcula as incorporações de texto para essas classes. O armazenamento em cache dessas incorporações evita que o modelo precise recodificar os prompts de texto para cada quadro de vídeo, permitindo a inferência em tempo real de alta velocidade em tempo real.
O seguinte Python O trecho demonstra o conceito de
"armazenamento em cache" de um prompt em um contexto de visão usando o ultralytics pacote. Ao definir as classes
uma vez em um YOLO modelo, as incorporações de texto
são calculadas e armazenadas (persistentes), permitindo que o modelo faça previsões eficientes em várias imagens sem
reprocessar a descrição do texto.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Para gerenciar conjuntos de dados e implementar esses modelos otimizados, a Ultralytics oferece um ambiente abrangente para anotar dados, treinar modelos de última geração, como o YOLO26e monitorizar o desempenho da implementação em várias dispositivos de IA de ponta .