Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

PagedAttention

Aprende cómo PagedAttention optimiza la gestión de memoria de los LLM y la eficiencia del caché KV. Explora su impacto en el rendimiento y cómo se compara con el rendimiento de Ultralytics YOLO26.

PagedAttention es un algoritmo de gestión de memoria altamente eficiente diseñado para optimizar la velocidad de inferencia y el rendimiento de los Modelos de Lenguaje Extensos (LLMs). Inspirada en los conceptos de memoria virtual y paginación de los sistemas operativos tradicionales, esta técnica soluciona el consumo masivo de memoria asociado con la caché de clave-valor (a menudo denominada caché KV) durante la generación de texto. Al fragmentar los bloques de memoria continuos requeridos para la caché en "páginas" más pequeñas y no contiguas, PagedAttention elimina eficazmente la fragmentación de memoria interna y externa. Esto permite a los servidores de IA procesar por lotes muchas más solicitudes simultáneamente, maximizando la utilización de la GPU.

Link to this sectionPagedAttention frente a Flash Attention#

Aunque ambas técnicas optimizan el rendimiento de las redes neuronales, se dirigen a diferentes cuellos de botella. Flash Attention es una optimización a nivel de cómputo que acelera el mecanismo de atención en sí mismo al minimizar las lecturas y escrituras lentas de memoria a través de la jerarquía de la GPU. Por el contrario, PagedAttention es una estrategia de asignación de memoria. Se centra puramente en cómo se estructura y almacena la memoria para la ventana de contexto, permitiendo un escalado dinámico sin preasignar bloques de memoria grandes y redundantes.

Link to this sectionAplicaciones en el mundo real#

La eficiencia de memoria desbloqueada por PagedAttention ha transformado la forma en que se despliegan los modelos generativos a gran escala en producción.

  1. Servicio de API de alto rendimiento: Los sistemas de producción que sirven modelos similares a GPT-4 utilizan PagedAttention mediante frameworks como vLLM. Al compartir bloques de memoria entre diferentes solicitudes de usuarios, los proveedores pueden atender hasta cuatro veces más usuarios en el mismo hardware, reduciendo drásticamente el coste de ejecutar servicios de IA en la nube.

  2. Estrategias de decodificación complejas: Cuando un modelo de IA genera múltiples respuestas potenciales a la vez (como en la búsqueda por haz o muestreo paralelo), PagedAttention permite que estas secuencias paralelas compartan de forma segura las mismas páginas de memoria fundamentales. Esto evita que el sistema duplique memoria redundante, haciendo que las tareas de razonamiento complejo sean significativamente más rápidas.

Link to this sectionEficiencia de memoria en Visión Artificial#

Aunque PagedAttention se utiliza principalmente en el procesamiento del lenguaje natural, el principio subyacente de una estricta optimización de la memoria es igualmente crítico en la visión artificial (CV). Al desplegar modelos en dispositivos periféricos con limitaciones de hardware, es esencial evitar la saturación de la memoria. Ultralytics YOLO26 logra una eficiencia de inferencia en tiempo real de forma nativa, evitando la necesidad de una gestión de caché pesada mediante el uso de una arquitectura integral sin NMS.

Para los desarrolladores que buscan manejar sin problemas los requisitos de memoria y exportación de las canalizaciones de detección de objetos, la Plataforma Ultralytics ofrece herramientas de despliegue automatizado que empaquetan los modelos para una ejecución óptima en el hardware.

Link to this sectionEjemplo de código#

PagedAttention opera bajo la superficie en los frameworks de servicio, reemplazando las funciones de atención estándar con kernels de Cuda optimizados. A continuación, se muestra un ejemplo conceptual que demuestra cómo se podría definir la atención estándar en PyTorch, que sistemas como vLLM interceptan y optimizan automáticamente mediante paginación durante el despliegue del modelo.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

Al aprovechar estrategias avanzadas de asignación de memoria, la industria de la IA continúa superando los límites de lo posible, garantizando que los modelos fundamentales masivos puedan escalarse y accederse de manera eficiente en todo el mundo.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático