Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Cache de Prompt

Descubra como o cache imediato otimiza a IA generativa, reduzindo a latência e os custos. Aprenda a acelerar a inferência LLM e modelos de visão como o YOLO26.

O cache rápido é uma estratégia de otimização avançada usada principalmente em IA generativa para reduzir significativamente os custos e melhorar os tempos de resposta durante a inferência. No domínio dos grandes modelos de linguagem (LLMs), o processamento de texto requer a conversão de entradas em sequências numéricas conhecidas como tokens. Frequentemente, uma grande parte dos dados de entrada — como uma instrução detalhada do sistema, um documento jurídico extenso ou uma base de código — permanece estática em muitas consultas diferentes dos utilizadores. Em vez de reprocessar essas seções imutáveis para cada nova solicitação, o cache de prompt armazena os estados matemáticos pré-calculados (frequentemente chamados de cache de chave-valor) na memória. Isso permite que o motor de inferência pular cálculos redundantes, concentrando o poder computacional apenas nas partes novas e dinâmicas do prompt do utilizador.

Mecanismos e benefícios

A mecânica fundamental do cache imediato depende da arquitetura dos Transformers, que processam os dados sequencialmente. Ao identificar o prefixo repetitivo de um prompt, o sistema pode carregar o mecanismo de atenção mecanismo de atenção estados diretamente da memória de alta velocidade.

  • Latência reduzida: o cache reduz drasticamente a latência de inferência, especificamente o tempo até o primeiro token (TTFT). Isso garante que aplicações em tempo real, como chatbots interativos chatbots, pareçam instantâneas para o utilizador.
  • Eficiência de custos: Desde os fornecedores de computação em nuvem costumam cobrar com base na duração da computação ou no processamento de tokens, evitar o trabalho pesado do contexto estático leva a economias substanciais.
  • Aumento da produtividade: Ao liberar GPU , os servidores podem lidar com um volume maior de solicitações simultâneas, tornando todo o serviço de modelos mais escalável.

Aplicações no Mundo Real

O armazenamento em cache instantâneo está a transformar os setores que dependem de um contexto de dados pesado.

  1. Assistentes de codificação: No desenvolvimento de software, ferramentas como o GitHub Copilot utilizam grandes quantidades de contexto dos ficheiros abertos do utilizador e da estrutura do repositório. Ao armazenar em cache as embeddings da base de código, o modelo pode fornecer sugestões de conclusão de código em tempo real sem reanalisar toda a estrutura de ficheiros do projeto para cada tecla pressionada.
  2. Análise jurídica e médica: Os profissionais frequentemente questionam agentes de IA em relação a documentos estáticos volumosos, como arquivos de jurisprudência ou registros históricos de pacientes. Usando Geração Aumentada por Recuperação (RAG), o sistema recupera trechos relevantes do texto. O armazenamento em cache de prompts garante que o contexto fundamental desses documentos recuperados não precise ser recalculado para perguntas de acompanhamento, simplificando a fluxo de trabalho de resposta a perguntas .

Relevância em Visão Computacional

Embora tradicionalmente associado ao texto, o conceito de cache é vital na visão computacional multimodal Visão Computacional (CV). Modelos como o YOLO permitem que os utilizadores detect usando prompts de texto de vocabulário aberto. Quando um utilizador define uma lista de classes (por exemplo, "pessoa, mochila, carro"), o modelo calcula as incorporações de texto para essas classes. O armazenamento em cache dessas incorporações evita que o modelo precise recodificar os prompts de texto para cada quadro de vídeo, permitindo a inferência em tempo real de alta velocidade em tempo real.

Distinção de termos relacionados

  • Vs. Engenharia de prompts: A engenharia de prompts envolve o esforço humano de projetar a entrada de texto ideal para orientar o modelo. O cache de prompts é uma otimização computacional de back-end que armazena o processamento dessa máquina desse texto.
  • Vs. Ajuste rápido: O ajuste rápido é um técnica de aprendizagem por transferência que atualiza pesos específicos do modelo. pesos do modelo (prompts suaves) para adaptar um modelo a uma tarefa. O cache não altera os parâmetros do modelo; apenas memoriza os estados de ativação durante o tempo de execução.

Exemplo de código: armazenamento em cache de incorporações de texto no Vision

O seguinte Python O trecho demonstra o conceito de "armazenamento em cache" de um prompt em um contexto de visão usando o ultralytics pacote. Ao definir as classes uma vez em um YOLO modelo, as incorporações de texto são calculadas e armazenadas (persistentes), permitindo que o modelo faça previsões eficientes em várias imagens sem reprocessar a descrição do texto.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Para gerenciar conjuntos de dados e implementar esses modelos otimizados, a Ultralytics oferece um ambiente abrangente para anotar dados, treinar modelos de última geração, como o YOLO26e monitorizar o desempenho da implementação em várias dispositivos de IA de ponta .

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora