Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

PagedAttention

Apprends comment PagedAttention optimise la gestion de la mémoire des LLM et l'efficacité du cache KV. Explore son impact sur le débit et comment il se compare aux performances d'Ultralytics YOLO26.

PagedAttention est un algorithme de gestion de mémoire hautement efficace conçu pour optimiser la vitesse d'inférence et le débit des Large Language Models (LLMs). Inspirée par les concepts de mémoire virtuelle et de pagination des systèmes d'exploitation traditionnels, cette technique résout la consommation massive de mémoire associée au cache clé-valeur (souvent appelé KV cache) pendant la génération de texte. En divisant les blocs de mémoire continus requis pour le cache en "pages" plus petites et non contiguës, PagedAttention élimine efficacement la fragmentation de mémoire interne et externe. Cela permet aux serveurs IA de traiter par lots un nombre nettement plus important de requêtes simultanément, maximisant ainsi l'utilisation du GPU.

Link to this sectionPagedAttention vs. Flash Attention#

Bien que les deux techniques optimisent les performances des réseaux neuronaux, elles ciblent des goulots d'étranglement différents. Flash Attention est une optimisation au niveau du calcul qui accélère le mécanisme d'attention lui-même en minimisant les lectures et écritures lentes en mémoire à travers la hiérarchie GPU. À l'inverse, PagedAttention est une stratégie d'allocation de mémoire. Elle se concentre purement sur la façon dont la mémoire pour la fenêtre de contexte est structurée et stockée, permettant une mise à l'échelle dynamique sans pré-allouer de larges blocs de mémoire inutiles.

Link to this sectionApplications concrètes#

L'efficacité mémoire débloquée par PagedAttention a transformé la façon dont les modèles génératifs à grande échelle sont déployés en production.

  1. High-Throughput API Serving : Les systèmes de production servant des modèles similaires à GPT-4 utilisent PagedAttention via des frameworks comme vLLM. En partageant des blocs de mémoire entre différentes requêtes utilisateur, les fournisseurs peuvent servir jusqu'à quatre fois plus d'utilisateurs sur le même matériel, réduisant considérablement le coût d'exécution des services IA basés sur le cloud.

  2. Complex Decoding Strategies : Lorsqu'un modèle IA génère plusieurs réponses potentielles à la fois (comme dans la recherche par faisceau ou l'échantillonnage parallèle), PagedAttention permet à ces séquences parallèles de partager en toute sécurité les mêmes pages mémoire fondamentales. Cela évite au système de dupliquer de la mémoire redondante, rendant les tâches de raisonnement complexe nettement plus rapides.

Link to this sectionEfficacité mémoire en vision par ordinateur#

Bien que PagedAttention soit principalement utilisé dans le traitement du langage naturel, le principe sous-jacent d'optimisation stricte de la mémoire est tout aussi critique en computer vision (CV). Lors du déploiement de modèles sur des appareils de périphérie aux ressources limitées, éviter l'enflure de la mémoire est essentiel. Ultralytics YOLO26 atteint nativement une efficacité d'inférence en temps réel, contournant le besoin d'une gestion lourde du cache grâce à l'utilisation d'une architecture de bout en bout sans NMS.

Pour les développeurs cherchant à gérer de manière transparente les exigences de mémoire et d'exportation des pipelines de détection d'objets, l'Ultralytics Platform propose des outils de déploiement automatisés qui conditionnent les modèles pour une exécution matérielle optimale.

Link to this sectionExemple de code#

PagedAttention opère sous la surface dans les frameworks de service, remplaçant les fonctions d'attention standard par des noyaux Cuda optimisés. Ci-dessous se trouve un exemple conceptuel démontrant comment on pourrait définir l'attention standard dans PyTorch, que des systèmes comme vLLM interceptent et optimisent automatiquement en utilisant la pagination pendant le déploiement de modèle.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

En tirant parti de stratégies avancées d'allocation de mémoire, l'industrie de l'IA continue de repousser les limites du possible, garantissant que des modèles fondamentaux massifs puissent être mis à l'échelle et accessibles efficacement dans le monde entier.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique