Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

PagedAttention

Узнай, как PagedAttention оптимизирует управление памятью LLM и эффективность KV-кэша. Исследуй его влияние на пропускную способность и сравни с производительностью Ultralytics YOLO26.

PagedAttention — это высокоэффективный алгоритм управления памятью, разработанный для оптимизации скорости вывода и пропускной способности больших языковых моделей (LLM). Вдохновленная концепциями виртуальной памяти и страничной организации в традиционных операционных системах, эта технология решает проблему огромного потребления памяти, связанную с кэшем ключей-значений (часто называемым KV cache) во время генерации текста. Разбивая непрерывные блоки памяти, требуемые для кэша, на более мелкие несмежные «страницы», PagedAttention эффективно устраняет как внутреннюю, так и внешнюю фрагментацию памяти. Это позволяет ИИ-серверам обрабатывать значительно больше запросов одновременно, максимизируя использование GPU.

Link to this sectionPagedAttention против Flash Attention#

Хотя оба метода оптимизируют работу нейронных сетей, они нацелены на разные «узкие места». Flash Attention — это оптимизация вычислительного уровня, которая ускоряет сам механизм внимания за счет минимизации медленных операций чтения и записи в памяти по всей иерархии GPU. В отличие от него, PagedAttention — это стратегия распределения памяти. Она фокусируется исключительно на том, как структурируется и хранится память для контекстного окна, позволяя динамически масштабироваться без предварительного выделения больших, неэффективно используемых блоков памяти.

Link to this sectionРеальные приложения#

Эффективность памяти, достигнутая благодаря PagedAttention, изменила подход к развертыванию крупномасштабных генеративных моделей в продакшене.

  1. API с высокой пропускной способностью: Продакшн-системы, обслуживающие модели уровня GPT-4, используют PagedAttention через такие фреймворки, как vLLM. Совместно используя блоки памяти для разных запросов пользователей, провайдеры могут обслуживать до четырех раз больше пользователей на одном и том же оборудовании, что значительно снижает стоимость запуска облачных ИИ-сервисов.

  2. Комплексные стратегии декодирования: Когда ИИ-модель генерирует сразу несколько потенциальных ответов (например, при лучевом поиске или параллельной выборке), PagedAttention позволяет этим параллельным последовательностям безопасно использовать одни и те же базовые страницы памяти. Это предотвращает дублирование данных в системе, значительно ускоряя решение сложных задач логического вывода.

Link to this sectionЭффективность памяти в компьютерном зрении#

Хотя PagedAttention в основном используется в обработке естественного языка, фундаментальный принцип строгой оптимизации памяти не менее важен в компьютерном зрении (CV). При развертывании моделей на периферийных устройствах с ограниченными аппаратными ресурсами крайне важно избегать избыточного использования памяти. Ultralytics YOLO26 обеспечивает эффективность вывода в реальном времени «из коробки», обходя необходимость в тяжелом управлении кэшем благодаря архитектуре, работающей по принципу end-to-end без NMS.

Для разработчиков, стремящихся бесшовно управлять требованиями к памяти и экспорту конвейеров обнаружения объектов, Ultralytics Platform предлагает автоматизированные инструменты развертывания, которые упаковывают модели для оптимального выполнения на оборудовании.

Link to this sectionПример кода#

PagedAttention работает «под капотом» фреймворков для обслуживания моделей, заменяя стандартные функции внимания на оптимизированные ядра CUDA. Ниже приведен концептуальный пример того, как можно определить стандартное внимание в PyTorch, которое такие системы, как vLLM, автоматически перехватывают и оптимизируют с использованием подкачки страниц во время развертывания модели.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

Используя передовые стратегии распределения памяти, индустрия ИИ продолжает раздвигать границы возможного, гарантируя, что огромные фундаментальные модели могут эффективно масштабироваться и быть доступными по всему миру.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения