Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

PagedAttention

Scopri come PagedAttention ottimizza la gestione della memoria LLM e l'efficienza della cache KV. Esplora il suo impatto sul throughput e come si confronta con le prestazioni di Ultralytics YOLO26.

PagedAttention è un algoritmo di gestione della memoria altamente efficiente, progettato per ottimizzare la velocità di inferenza e il throughput dei Large Language Models (LLM). Ispirata ai concetti di memoria virtuale e paging dei sistemi operativi tradizionali, questa tecnica risolve l'enorme consumo di memoria associato alla cache chiave-valore (spesso chiamata KV cache) durante la generazione di testo. Suddividendo i blocchi di memoria continui richiesti per la cache in "pagine" più piccole e non contigue, PagedAttention elimina efficacemente la frammentazione della memoria, sia interna che esterna. Ciò consente ai server AI di gestire in batch un numero significativamente maggiore di richieste contemporaneamente, massimizzando l'utilizzo della GPU.

Link to this sectionPagedAttention vs. Flash Attention#

Sebbene entrambe le tecniche ottimizzino le prestazioni delle reti neurali, mirano a colli di bottiglia diversi. Flash Attention è un'ottimizzazione a livello di calcolo che accelera il meccanismo di attenzione riducendo al minimo le letture e le scritture lente nella gerarchia della GPU. Al contrario, PagedAttention è una strategia di allocazione della memoria. Si concentra esclusivamente su come la memoria per la finestra di contesto viene strutturata e archiviata, consentendo un ridimensionamento dinamico senza dover pre-allocare blocchi di memoria ampi e inefficienti.

Link to this sectionApplicazioni nel mondo reale#

L'efficienza della memoria sbloccata da PagedAttention ha trasformato il modo in cui i modelli generativi su larga scala vengono distribuiti in produzione.

  1. High-Throughput API Serving: i sistemi di produzione che utilizzano modelli simili a GPT-4 sfruttano PagedAttention tramite framework come vLLM. Condividendo i blocchi di memoria tra diverse richieste degli utenti, i provider possono servire fino a quattro volte più utenti sullo stesso hardware, riducendo drasticamente il costo dei servizi AI basati su cloud.

  2. Complex Decoding Strategies: quando un modello AI genera più risposte potenziali contemporaneamente (come nella beam search o nel campionamento parallelo), PagedAttention consente a queste sequenze parallele di condividere in sicurezza le stesse pagine di memoria fondamentali. Ciò impedisce al sistema di duplicare memoria ridondante, rendendo le attività di ragionamento complesso significativamente più veloci.

Link to this sectionEfficienza della memoria nella Computer Vision#

Sebbene PagedAttention sia utilizzato principalmente nell'elaborazione del linguaggio naturale, il principio fondamentale di una rigorosa ottimizzazione della memoria è altrettanto critico nella computer vision (CV). Quando distribuisci modelli su dispositivi edge con risorse hardware limitate, evitare l'eccessivo utilizzo di memoria è essenziale. Ultralytics YOLO26 raggiunge un'efficienza di inferenza in tempo reale nativamente, evitando la necessità di una gestione pesante della cache grazie a un'architettura end-to-end priva di NMS.

Per gli sviluppatori che desiderano gestire senza problemi i requisiti di memoria ed esportazione delle pipeline di object detection, la Ultralytics Platform offre strumenti di distribuzione automatizzati che pacchettizzano i modelli per un'esecuzione hardware ottimale.

Link to this sectionEsempio di codice#

PagedAttention opera dietro le quinte nei framework di serving, sostituendo le funzioni di attenzione standard con kernel Cuda ottimizzati. Di seguito è riportato un esempio concettuale che mostra come si potrebbe definire l'attenzione standard in PyTorch, che sistemi come vLLM intercettano e ottimizzano automaticamente utilizzando il paging durante la distribuzione del modello.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

Sfruttando strategie avanzate di allocazione della memoria, il settore dell'AI continua a superare i confini del possibile, assicurando che modelli fondamentali enormi possano essere scalati e accessibili in modo efficiente in tutto il mondo.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning