Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Кэширование промптов

Узнайте, как быстрое кэширование оптимизирует генеративный ИИ за счет сокращения задержек и затрат. Узнайте, как ускорить вычисления LLM и модели зрения, такие как YOLO26.

Кэширование подсказок — это передовая стратегия оптимизации, используемая в основном в генеративном ИИ для значительного сокращения затрат и улучшения времени отклика во время вывода. В сфере больших языковых моделей (LLM)для обработки текста требуется преобразование входных данных в числовые последовательности, известные как токенами. Часто большая часть входных данных — например, подробные системные инструкции, длинные юридические документы или кодовая база — остается неизменной при обработке множества различных запросов пользователей. Вместо повторной обработки этих неизменных участков для каждого нового запроса, кэширование подсказок сохраняет предварительно вычисленные математические состояния (часто называемые кэшем «ключ-значение») в памяти. Это позволяет движку вывода пропускать избыточные вычисления, сосредоточив вычислительную мощность только на новых, динамических частях запроса пользователя.

Механизмы и преимущества

Основные механизмы оперативного кэширования основаны на архитектуре трансформаторов, которые последовательно обрабатывают данные. Идентифицируя повторяющийся префикс подсказки, система может загрузить соответствующий механизм внимания состояния непосредственно из высокоскоростной памяти.

  • Снижение задержки: кэширование значительно снижает задержку вывода, в частности время до первого токена (TTFT). Это гарантирует, что приложения реального времени, такие как интерактивные чат-боты, работают мгновенно.
  • Экономическая эффективность: поскольку поставщики облачных вычислений часто выставляют счета на основе продолжительности вычислений или обработки токенов, отказ от тяжелой работы по статическому контексту приводит к существенной экономии.
  • Увеличение пропускной способности: за счет освобождения GPU ресурсов, серверы могут обрабатывать большее количество одновременных запросов, что делает всю инфраструктура обслуживания моделей инфраструктуру обслуживания моделей более масштабируемой.

Применение в реальном мире

Кэширование запросов преобразует отрасли, которые полагаются на большой объем данных.

  1. Помощники по кодированию: в разработке программного обеспечения такие инструменты, как GitHub Copilot используют огромные объемы контекста из открытых файлов пользователя и структуры репозитория. Путем кэширования встраивания кодовой базы, модель может предоставлять предложения по автозаполнению кода в реальном времени без повторного анализа всей файловой структуры проекта при каждом нажатии клавиши.
  2. Юридический и медицинский анализ: Профессионалы часто задают вопросы искусственный интеллект по массивным статическим документам, таким как архивы судебной практики или истории болезни пациентов. Используя RAG (Retrieval-Augmented Generation), система извлекает соответствующие фрагменты текста. Кэширование запросов гарантирует, что базовый контекст этих извлеченных документов не нужно пересчитывать для последующих вопросов, что оптимизирует рабочий процесс .

Релевантность в компьютерном зрении

Хотя концепция кэширования традиционно ассоциируется с текстом, она имеет жизненно важное значение в мультимодальном компьютерном зрении (CV). Модели, такие как YOLO позволяют пользователям detect с помощью текстовых подсказок с открытым словарем. Когда пользователь определяет список классов (например, «человек, рюкзак, автомобиль»), модель вычисляет вложения текста для этих классов. Кэширование этих вложений избавляет модель от необходимости перекодировать текстовые подсказки для каждого отдельного кадра видео, что обеспечивает высокую скорость вывод в реальном времени.

Различение смежных терминов

  • Vs. Программирование подсказок: Программирование подсказок включает в себя человеческие усилия по разработке оптимального текстового ввода для управления моделью. Кэширование подсказок — это оптимизация вычислений на бэкэнде, которая хранит результаты обработки этого текста машиной.
  • Vs. Настройка подсказок: Настройка подсказок — это метод переноса знаний метод , который обновляет определенные веса модели (мягкие подсказки) для адаптации модели к задаче. Кэширование не изменяет параметры модели; оно только запоминает состояния активации во время выполнения.

Пример кода: кэширование текстовых вложений в Vision

Следующие Python фрагмент кода демонстрирует концепцию «кэширования» подсказки в контексте Vision с использованием ultralytics пакета. Задав классы один раз в YOLO модель, текстовые вложения вычисляются и сохраняются (сохраняются), что позволяет модели эффективно прогнозировать на основе нескольких изображений без повторной обработки текстового описания.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Для управления наборами данных и развертывания этих оптимизированных моделей используется Ultralytics предоставляет комплексную среду для аннотирования данных, обучения современных моделей, таких как YOLO26, а также для мониторинга производительности развертывания в различных устройствах Edge AI устройствах

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас