Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Semantic Caching

Узнай, как семантическое кэширование снижает задержки и расходы на ИИ. Пойми, как это работает для LLM и конвейеров компьютерного зрения на практическом примере с Ultralytics YOLO26.

Семантическое кэширование — это передовой метод оптимизации, используемый главным образом в генеративном ИИ и для больших языковых моделей (LLM). Он сохраняет и извлекает ответы на основе смысла (семантики) запроса, а не его точного текста. Определяя, когда новый промпт задает тот же фундаментальный вопрос, что и ранее обработанный, семантическое кэширование избавляет от необходимости повторного вызова модели ИИ, что значительно сокращает время обработки и затраты на API.

Link to this sectionКак работает семантическое кэширование#

В отличие от традиционного кэширования, требующего точного совпадения строк, семантический кэш преобразует входящие запросы в многомерные числовые векторы, называемые эмбеддингами. Когда ты отправляешь промпт, системы, использующие семантическое кэширование Redis или аналогичные хранилища в оперативной памяти, выполняют векторный поиск, чтобы сравнить новый вектор с ранее сохраненными векторами в векторной базе данных.

Это сравнение основывается на математических метриках расстояния, чаще всего на косинусном сходстве. Если показатель сходства между новым и кэшированным запросом превышает заданный порог (например, 0.95), это фиксируется как «попадание в кэш» (cache hit). Система мгновенно возвращает сохраненный ответ, полностью пропуская механизм вывода. Если оценка ниже порога, происходит «промах кэша» (cache miss), что побуждает модель сгенерировать новый ответ и сохранить новую пару «эмбеддинг-ответ» для будущих взаимодействий. Этот рабочий процесс весьма эффективен в современных облачных архитектурах для масштабирования приложений ИИ.

Link to this sectionРеальные приложения#

Семантическое кэширование критически важно для развертывания экономически эффективных ИИ-решений в различных доменах.

  • Чат-боты для поддержки клиентов: В службе IT-поддержки сотни пользователей могут задавать разные вариации одного и того же вопроса (например, «Как мне сбросить пароль?» против «Шаги по восстановлению пароля»). Семантическое кэширование распознает эти намерения как идентичные, гарантируя, что модель вычисляет ответ только один раз. Это значительно снижает задержку вывода и уменьшает использование токенов для решений по управлению API.
  • Визуальный поиск и RAG: В мультимодальных конвейерах платформы используют извлечение признаков для кэширования эмбеддингов эталонных изображений. Когда ты загружаешь изображение для поиска визуально похожих объектов, система может мгновенно извлечь семантически подходящие результаты из кэша, быстро ускоряя систему визуальных рекомендаций без необходимости повторного кодирования больших визуальных входных данных. Разработчики часто интегрируют инструменты, такие как LangChain, для оркестрации этих уровней кэширования.

Link to this sectionРазграничение похожих терминов кэширования#

Чтобы полностью понять оптимизацию ИИ, полезно отличать семантическое кэширование от других форм управления памятью:

  • Vs. Кэширование промптов: Кэширование промптов включает сохранение предварительно вычисленных математических состояний статического контекста (например, префикса длинного документа) во время активной сессии для ускорения последующих запросов. Семантическое кэширование сохраняет конечный текстовый или визуальный вывод полного взаимодействия, чтобы обслуживать совершенно новые, но идентичные по смыслу запросы.
  • Vs. KV-кэш: KV-кэш — это низкоуровневый механизм памяти внутри архитектуры Transformer, который сохраняет промежуточные состояния внимания во время генерации текста по токенам для облегчения вывода в реальном времени. Семантическое кэширование работает на уровне приложения, кэшируя весь обмен данными «вход-выход» до того, как он попадет в слои модели.

Link to this sectionИмитация семантического кэширования в компьютерном зрении#

Следующий фрагмент кода на Python демонстрирует, как имитировать основной механизм семантического кэша с помощью PyTorch и пакета ultralytics. Вычисляя сходство между ранее кэшированным изображением и новым запросом с использованием модели классификации Ultralytics YOLO26, система может определить, необходим ли полный проход логического вывода.

import torch
from ultralytics import YOLO

# Load an Ultralytics YOLO26 classification model for embedding generation
model = YOLO("yolo26n-cls.pt")

# Extract the embedding for a previously 'cached' reference image
cached_embed = model.embed("reference_shoe.jpg")[0].flatten()

# Extract the embedding for a new user query image
new_embed = model.embed("user_uploaded_shoe.jpg")[0].flatten()

# Calculate cosine similarity to check for a semantic cache hit
similarity = torch.nn.functional.cosine_similarity(cached_embed, new_embed, dim=0)

# Apply a threshold to determine if the images are semantically equivalent
if similarity > 0.90:
    print(f"Cache hit! Similarity: {similarity.item():.2f}. Returning cached response.")
else:
    print(f"Cache miss! Similarity: {similarity.item():.2f}. Running full inference.")

Для команд, стремящихся управлять наборами данных и развертывать высокооптимизированные модели компьютерного зрения, которые могут бесшовно интегрироваться с продвинутыми архитектурами кэширования, Ultralytics Platform предоставляет интуитивно понятную комплексную среду для обучения, отслеживания и обслуживания моделей в масштабе.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения