Узнайте, как быстрое кэширование оптимизирует генеративный ИИ за счет сокращения задержек и затрат. Узнайте, как ускорить вычисления LLM и модели зрения, такие как YOLO26.
Кэширование подсказок — это передовая стратегия оптимизации, используемая в основном в генеративном ИИ для значительного сокращения затрат и улучшения времени отклика во время вывода. В сфере больших языковых моделей (LLM)для обработки текста требуется преобразование входных данных в числовые последовательности, известные как токенами. Часто большая часть входных данных — например, подробные системные инструкции, длинные юридические документы или кодовая база — остается неизменной при обработке множества различных запросов пользователей. Вместо повторной обработки этих неизменных участков для каждого нового запроса, кэширование подсказок сохраняет предварительно вычисленные математические состояния (часто называемые кэшем «ключ-значение») в памяти. Это позволяет движку вывода пропускать избыточные вычисления, сосредоточив вычислительную мощность только на новых, динамических частях запроса пользователя.
Основные механизмы оперативного кэширования основаны на архитектуре трансформаторов, которые последовательно обрабатывают данные. Идентифицируя повторяющийся префикс подсказки, система может загрузить соответствующий механизм внимания состояния непосредственно из высокоскоростной памяти.
Кэширование запросов преобразует отрасли, которые полагаются на большой объем данных.
Хотя концепция кэширования традиционно ассоциируется с текстом, она имеет жизненно важное значение в мультимодальном компьютерном зрении (CV). Модели, такие как YOLO позволяют пользователям detect с помощью текстовых подсказок с открытым словарем. Когда пользователь определяет список классов (например, «человек, рюкзак, автомобиль»), модель вычисляет вложения текста для этих классов. Кэширование этих вложений избавляет модель от необходимости перекодировать текстовые подсказки для каждого отдельного кадра видео, что обеспечивает высокую скорость вывод в реальном времени.
Следующие Python фрагмент кода демонстрирует концепцию
«кэширования» подсказки в контексте Vision с использованием ultralytics пакета. Задав классы
один раз в YOLO модель, текстовые
вложения вычисляются и сохраняются (сохраняются), что позволяет модели эффективно прогнозировать на основе нескольких изображений без
повторной обработки текстового описания.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Для управления наборами данных и развертывания этих оптимизированных моделей используется Ultralytics предоставляет комплексную среду для аннотирования данных, обучения современных моделей, таких как YOLO26, а также для мониторинга производительности развертывания в различных устройствах Edge AI устройствах