Yolo 深圳
深セン
今すぐ参加
用語集

プロンプトキャッシング

プロンプトキャッシュでAI効率を向上させましょう!この強力なテクニックを使用して、レイテンシを削減し、コストを削減し、AIアプリを拡張する方法を学びましょう。

プロンプト・キャッシングは、大規模言語モデル(LLM)のデプロイメントに使用される特殊な最適化技術です。 大規模言語モデル(LLM)のデプロイメントに使用される特殊な最適化技術です。 推論の待ち時間と計算コストを大幅に削減する 計算コストを大幅に削減する。生成的AIの文脈では プロンプトを処理するには、テキストを数値表現に変換し、各トークン間の関係を計算する必要がある。 注意メカニズム アテンション・メカニズムを使用する。プロンプトのかなりの部分が プロンプトのかなりの部分(長いシステム命令や例題のセットなど)が、複数のリクエストにわたって静的なままである場合、プロンプトのキャッシュによって、システムは中間的な数学的状態(具体的にはKey-Vis)を保存することができる。 キャッシュにより、システムはその静的なテキストの中間的な数学的状態(具体的にはKey-Valueペア)を保存することができる。 テキストを保存することができる。新しいクエリごとにこれらの状態を再計算する代わりに、推論エンジンはそれらをメモリから取り出す。 推論エンジンはメモリからそれらを取り出す、 これにより、モデルは入力の新しい動的な部分のみに処理能力を集中させることができる。

メカニズムと利点

プロンプト・キャッシングの背後にある中核的なメカニズムは、コンテキスト・ウィンドウを効率的に管理することに依存している。 コンテキストウィンドウを効率的に管理することに依存している。LLMが入力を処理するとき が入力を処理するとき、その時点までのテキストに対するモデルの理解を表す「KVキャッシュ」(Key-Value Cache)を生成する。 を生成する。プロンプトのキャッシュは、プロンプトの最初のsegment (プレフィックス)を再利用可能な資産として扱う。

  • 待ち時間の短縮:キャッシュされたプレフィックスの計算をスキップすることで 最初のトークンまでの時間 (TTFT) が劇的に短縮され、リアルタイム推論シナリオでより迅速な応答が可能になります。 リアルタイム推論シナリオでの迅速な応答につながります。
  • コスト効率:以来 グラフィック・プロセッシング・ユニット(GPU) が冗長なトークンの処理に費やす時間が短縮されるため、リクエストごとに必要な全体的な計算リソースが減少します。 人工知能 人工知能(AI)サービスの運用コストを削減します。
  • スループットの向上:個々のリクエストに対する計算負荷が最小化されるため、システムはより大量の同時リクエストを処理できる。 各リクエストの計算負荷が最小化されるからである。

実際のアプリケーション

プロンプト・キャッシングは、開発者が機械学習(ML)アプリケーションを構築し、拡張する方法を変革している。 機械学習(ML)アプリケーションの構築方法を変革している、 特に重いテキスト処理を伴うアプリケーションを構築する方法を変えます。

  1. コンテキストを意識したコーディング・アシスタント:コード補完を提供するツールでは、現在のファイルや参照されているライブラリの内容全体が、プロンプトのコンテキストとなることが多い。 の内容全体が、プロンプトのコンテキストとして機能することがよくあります。この「接頭辞」は数千 トークンになることもあります。プロンプトのキャッシュを使うことで、アシスタントはファイルの状態をキャッシュできる。開発者が入力(新しいトークンを追加)すると 新しいトークンを追加)すると、モデルはファイル構造全体を読み直すのではなく、新しい文字だけを処理します。 最新の 統合開発環境(IDE)で見られる秒以下の応答時間を実現します。
  2. 文書分析とQ&A:50ページのPDFマニュアルに関する質問に答えるシステムを考えてみよう。 マニュアルに関する質問に答えるために設計されたシステムを考える。その際 検索拡張生成(RAG)を使って、マニュアルのテキストがモデルに入力される。キャッシュがない場合、ユーザが質問するたびに、モデルは以下の処理を行う必要があります。 はマニュアル全体と質問を再処理しなければなりません。プロンプトキャッシングを使えば、マニュアルを理解するための重い計算作業は は一度だけ行われ、保存されます。後続の質問は、このキャッシュされた状態に追加されます。 質問応答インタラクションを流動的かつ効率的にする 効率的になります。

技術的実施コンセプト

プロンプト・キャッシングはLLM推論サーバーの内部的なものだが、データ構造を理解することで、コンセプトを明確にすることができる。 キャッシュ」は基本的に、注意状態を表すテンソル(多次元配列)を保存する。

を使用した次のPython スニペットです。 torch はKey-Valueキャッシュtensor形と概念を示している、 これはプロンプトのキャッシュ中に保存され再利用されるものです:

import torch

# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128

# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)

print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.

関連概念の区別

正しい最適化戦略を適用するためには、プロンプト・キャッシングとUltralytics用語集の他の用語を区別することが重要です。 Ultralytics 用語集にある他の用語と区別して、正しい最適化戦略を適用することが重要です。

  • プロンプト・エンジニアリング:プロンプト・エンジニアリング:プロンプト・エンジニアリングは、最適な回答を引き出すために、入力されるテキストの内容や 構造を工夫することに重点を置く。 最適な応答を引き出す。プロンプト・キャッシングは、その入力の計算実行を最適化することに重点を置く。
  • セマンティック検索:セマンティック検索(キャッシュ出力でよく使われる)類似したクエリを探し、あらかじめ書かれた レスポンスを返す。プロンプト・キャッシングはユニークなレスポンスを生成するためにモデルを実行します。 を早送りするだけです。
  • Vs.微調整:微調整 新しい情報を学習するためにモデルの重みを変更する。プロンプト キャッシュはモデルの重みを変更しない。 セッションの活性化状態を一時的に保存する。
  • モデルの量子化:量子化はモデルのパラメータの精度を下げ、メモリを節約し、推論を全体的に高速化する。 プロンプト・キャッシングは、入力データに特化した実行時の最適化であり、多くの場合、量子化と組み合わせて使用されます。 量子化と併用されることが多い。

プロンプト・キャッシングは 自然言語処理(NLP)に固有のものである、 効率性の原則は普遍的である。コンピュータビジョン コンピュータ・ビジョン(CV)では YOLO11のようなモデルは、スピードのためにアーキテクチャー的に最適化されており、物体検出タスクが高フレームフレームを達成することを保証している。 オブジェクト検出タスクが高いフレームレートを達成できるように 自己回帰言語モデルで使用されるような状態キャッシュを必要としない。しかし マルチモーダルモデルが進化し、ビデオとテキストを一緒に処理するようになると の論文で述べられているように、ビジュアルトークンのキャッシュは新たな研究分野となりつつある。 arXiv.

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加