Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Prompt Caching

Открой для себя, как кэширование промптов оптимизирует генеративный ИИ за счет снижения задержек и затрат. Узнай его роль в LLM и компьютерном зрении в реальном времени с Ultralytics YOLO26.

Кеширование промптов — это продвинутая стратегия оптимизации, используемая преимущественно в генеративном ИИ для значительного сокращения расходов и повышения скорости отклика во время инференса. В области больших языковых моделей (LLM) обработка текста требует преобразования входных данных в числовые последовательности, известные как токены. Часто значительная часть входных данных — например, подробная системная инструкция, длинный юридический документ или кодовая база — остается неизменной для множества разных запросов пользователя. Вместо повторной обработки этих неизменных разделов для каждого нового запроса, кеширование промптов сохраняет предварительно вычисленные математические состояния (часто называемые Key-Value кешем) в памяти. Это позволяет механизму инференса пропускать избыточные вычисления, фокусируя вычислительную мощность только на новых, динамических частях промпта пользователя.

Link to this sectionМеханизмы и преимущества#

Фундаментальная механика кеширования промптов опирается на архитектуру Трансформеров, которые обрабатывают данные последовательно. Определяя повторяющийся префикс промпта, система может загружать соответствующие состояния механизма внимания напрямую из высокоскоростной памяти.

  • Сокращение задержки: Кеширование значительно снижает задержку инференса, особенно время до первого токена (TTFT). Это гарантирует, что приложения реального времени, такие как интерактивные чат-боты, будут казаться пользователю мгновенными.
  • Экономическая эффективность: Поскольку провайдеры облачных вычислений часто выставляют счета на основе длительности вычислений или обработки токенов, пропуск тяжелой работы для статического контекста ведет к существенной экономии.
  • Повышение пропускной способности: Освобождая ресурсы GPU, серверы могут обрабатывать больший объем одновременных запросов, делая всю инфраструктуру модельного сервиса более масштабируемой.

Link to this sectionРеальные приложения#

Кеширование промптов трансформирует отрасли, полагающиеся на большой объем данных контекста.

  1. Ассистенты для программирования: В разработке ПО инструменты, такие как GitHub Copilot, используют огромные объемы контекста из открытых файлов пользователя и структуры репозитория. Кешируя эмбеддинги кодовой базы, модель может предоставлять предложения по автодополнению кода в реальном времени, не анализируя заново всю структуру проекта при каждом нажатии клавиши.

  2. Юридический и медицинский анализ: Профессионалы часто направляют запросы ИИ-агентам к массивным статическим документам, таким как архивы судебных дел или записи истории болезни пациентов. Используя генерацию с дополнением выборкой (RAG), система извлекает соответствующие фрагменты текста. Кеширование промптов гарантирует, что фундаментальный контекст этих извлеченных документов не нужно вычислять заново для последующих вопросов, оптимизируя рабочий процесс ответов на вопросы.

Link to this sectionАктуальность в компьютерном зрении#

Хотя концепция кеширования традиционно ассоциируется с текстом, она жизненно важна в мультимодальном компьютерном зрении (CV). Модели, такие как YOLO-World, позволяют пользователям детектировать объекты, используя текстовые промпты с открытым словарем. Когда ты определяешь список классов (например, "человек, рюкзак, автомобиль"), модель вычисляет текстовые эмбеддинги для этих классов. Кеширование этих эмбеддингов предотвращает необходимость повторного кодирования текстовых промптов для каждого кадра видео, что обеспечивает инференс в реальном времени на высокой скорости.

Link to this sectionРазграничение связанных терминов#

  • Vs. Промпт-инжиниринг: Промпт-инжиниринг подразумевает человеческие усилия по проектированию оптимального текстового ввода для управления моделью. Кеширование промптов — это фоновая вычислительная оптимизация, которая сохраняет машинную обработку этого текста.
  • Vs. Промпт-тюнинг: Промпт-тюнинг — это метод трансферного обучения, который обновляет специфические веса модели (мягкие промпты) для адаптации модели к задаче. Кеширование не меняет параметры модели; оно лишь запоминает состояния активации во время выполнения.

Link to this sectionПример кода: Кеширование текстовых эмбеддингов в задачах зрения#

Следующий фрагмент кода на Python демонстрирует концепцию «кеширования» промпта в контексте зрения с использованием пакета ultralytics. Установив классы один раз в модели YOLO-World, текстовые эмбеддинги вычисляются и сохраняются (персистируются), позволяя модели эффективно выполнять предсказания на нескольких изображениях без повторной обработки текстового описания.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Для управления наборами данных и развертывания этих оптимизированных моделей платформа Ultralytics предоставляет комплексную среду для аннотирования данных, обучения передовых моделей, таких как YOLO26, и мониторинга производительности развертывания на различных устройствах Edge AI.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения