Semantic Caching

Узнай, как семантическое кэширование снижает задержки и расходы на ИИ. Пойми, как это работает для LLM и конвейеров компьютерного зрения на практическом примере с Ultralytics YOLO26.

Семантическое кэширование — это передовой метод оптимизации, используемый главным образом в генеративном ИИ и для больших языковых моделей (LLM). Он сохраняет и извлекает ответы на основе смысла (семантики) запроса, а не его точного текста. Определяя, когда новый промпт задает тот же фундаментальный вопрос, что и ранее обработанный, семантическое кэширование избавляет от необходимости повторного вызова модели ИИ, что значительно сокращает время обработки и затраты на API.

Как работает семантическое кэширование#

В отличие от традиционного кэширования, требующего точного совпадения строк, семантический кэш преобразует входящие запросы в многомерные числовые векторы, называемые эмбеддингами. Когда ты отправляешь промпт, системы, использующие семантическое кэширование Redis или аналогичные хранилища в оперативной памяти, выполняют векторный поиск, чтобы сравнить новый вектор с ранее сохраненными векторами в векторной базе данных.

Это сравнение основывается на математических метриках расстояния, чаще всего на косинусном сходстве. Если показатель сходства между новым и кэшированным запросом превышает заданный порог (например, 0.95), это фиксируется как «попадание в кэш» (cache hit). Система мгновенно возвращает сохраненный ответ, полностью пропуская механизм вывода. Если оценка ниже порога, происходит «промах кэша» (cache miss), что побуждает модель сгенерировать новый ответ и сохранить новую пару «эмбеддинг-ответ» для будущих взаимодействий. Этот рабочий процесс весьма эффективен в современных облачных архитектурах для масштабирования приложений ИИ.

Реальные приложения#

Семантическое кэширование критически важно для развертывания экономически эффективных ИИ-решений в различных доменах.

Чат-боты для поддержки клиентов: В службе IT-поддержки сотни пользователей могут задавать разные вариации одного и того же вопроса (например, «Как мне сбросить пароль?» против «Шаги по восстановлению пароля»). Семантическое кэширование распознает эти намерения как идентичные, гарантируя, что модель вычисляет ответ только один раз. Это значительно снижает задержку вывода и уменьшает использование токенов для решений по управлению API.
Визуальный поиск и RAG: В мультимодальных конвейерах платформы используют извлечение признаков для кэширования эмбеддингов эталонных изображений. Когда ты загружаешь изображение для поиска визуально похожих объектов, система может мгновенно извлечь семантически подходящие результаты из кэша, быстро ускоряя систему визуальных рекомендаций без необходимости повторного кодирования больших визуальных входных данных. Разработчики часто интегрируют инструменты, такие как LangChain, для оркестрации этих уровней кэширования.

Разграничение похожих терминов кэширования#

Чтобы полностью понять оптимизацию ИИ, полезно отличать семантическое кэширование от других форм управления памятью:

Vs. Кэширование промптов: Кэширование промптов включает сохранение предварительно вычисленных математических состояний статического контекста (например, префикса длинного документа) во время активной сессии для ускорения последующих запросов. Семантическое кэширование сохраняет конечный текстовый или визуальный вывод полного взаимодействия, чтобы обслуживать совершенно новые, но идентичные по смыслу запросы.
Vs. KV-кэш: KV-кэш — это низкоуровневый механизм памяти внутри архитектуры Transformer, который сохраняет промежуточные состояния внимания во время генерации текста по токенам для облегчения вывода в реальном времени. Семантическое кэширование работает на уровне приложения, кэшируя весь обмен данными «вход-выход» до того, как он попадет в слои модели.

Имитация семантического кэширования в компьютерном зрении#

Следующий фрагмент кода на Python демонстрирует, как имитировать основной механизм семантического кэша с помощью PyTorch и пакета ultralytics. Вычисляя сходство между ранее кэшированным изображением и новым запросом с использованием модели классификации Ultralytics YOLO26, система может определить, необходим ли полный проход логического вывода.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Для команд, стремящихся управлять наборами данных и развертывать высокооптимизированные модели компьютерного зрения, которые могут бесшовно интегрироваться с продвинутыми архитектурами кэширования, Ultralytics Platform предоставляет интуитивно понятную комплексную среду для обучения, отслеживания и обслуживания моделей в масштабе.