YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

PagedAttention

PagedAttentionがLLMのメモリ管理とKVキャッシュ効率をどのように最適化するかを学びます。スループットへの影響と、Ultralytics YOLO26のパフォーマンスとの比較を探求しましょう。

PagedAttentionは、大規模言語モデル (LLM)の推論速度とスループットを最適化するために設計された、極めて効率的なメモリ管理アルゴリズムです。従来のオペレーティングシステムにおける仮想メモリとページングの概念に着想を得たこの技術は、テキスト生成時のキー・バリューキャッシュ(KV cacheと呼称されることが多い)に関連する膨大なメモリ消費の問題に対処します。キャッシュに必要な連続したメモリブロックを、より小さく非連続な「ページ」に分割することで、PagedAttentionは内部および外部のメモリ断片化を効果的に解消します。これにより、AIサーバーはより多くのリクエストを同時にバッチ処理できるようになり、GPUの稼働率を最大化します。

Link to this sectionPagedAttentionとFlash Attentionの比較#

どちらの技術もニューラルネットワークのパフォーマンスを最適化しますが、対象とするボトルネックは異なります。Flash Attentionは、GPU階層全体での低速なメモリ読み書きを最小限に抑えることで、アテンションメカニズム自体を高速化する計算レベルの最適化です。対照的に、PagedAttentionはメモリ割り当て戦略です。これはコンテキストウィンドウのためのメモリがどのように構築され保存されるかにのみ焦点を当てており、大きなメモリブロックを無駄に事前割り当てすることなく、動的なスケーリングを可能にします。

Link to this section実社会での応用#

PagedAttentionによって実現されたメモリ効率は、大規模な生成モデルが本番環境でデプロイされる方法を変革しました。

  1. 高スループットAPIサービング: GPT-4のようなモデルを提供する本番システムでは、vLLMのようなフレームワークを通じてPagedAttentionを利用しています。ユーザーからの複数のリクエスト間でメモリブロックを共有することで、プロバイダーは同一のハードウェアで最大4倍のユーザーにサービスを提供でき、クラウドベースのAIサービスを実行するコストを大幅に削減できます。

  2. 複雑なデコード戦略: AIモデルが一度に複数の潜在的な応答を生成する場合(ビームサーチや並列サンプリングなど)、PagedAttentionはこれらの並列シーケンス間で同じ基盤メモリページを安全に共有することを可能にします。これにより、システムが冗長なメモリを重複して作成することを防ぎ、複雑な推論タスクを大幅に高速化します。

Link to this sectionコンピュータビジョンにおけるメモリ効率#

PagedAttentionは主に自然言語処理で利用されていますが、厳密なメモリ最適化という基本的な原則はコンピュータビジョン (CV)においても同様に重要です。ハードウェアが制限されたエッジデバイスにモデルをデプロイする際、メモリの肥大化を避けることは不可欠です。Ultralytics YOLO26は、エンドツーエンドかつNMSフリーのアーキテクチャを採用することで、重いキャッシュ管理を必要とせず、ネイティブでリアルタイム推論の効率性を達成しています。

物体検出パイプラインのメモリおよびエクスポート要件をシームレスに処理したい開発者のために、Ultralytics Platformは、最適なハードウェア実行に向けてモデルをパッケージ化する自動デプロイツールを提供しています。

Link to this sectionコード例#

PagedAttentionはサービングフレームワークの裏側で動作し、標準のアテンション関数を最適化されたCudaカーネルに置き換えます。以下は、PyTorchで標準的なアテンションを定義する方法の概念的な例ですが、vLLMのようなシステムはモデルデプロイ中に自動的にこれをインターセプトし、ページングを用いて最適化します。

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

AI業界は高度なメモリ割り当て戦略を活用することで、何が可能かの限界を押し広げ続け、巨大な基盤モデルを効率的にスケーリングし、世界中で利用できるようにしています。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう