用語集

プロンプト・キャッシング

プロンプト・キャッシングでAIの効率を高めよう!この強力なテクニックを使って、レイテンシーを減らし、コストを削減し、AIアプリを拡張する方法を学びましょう。

プロンプトキャッシングは、推論プロセスを高速化するために、主にラージランゲージモデル(LLM)で使用される最適化手法である。これは、プロンプトの最初の部分の中間的な計算結果、具体的にはアテンションメカニズムにおけるキー・バリュー(KV)状態を保存することで機能する。新しいプロンプトが同じ開始(プレフィックス)を共有する場合、モデルは再計算する代わりに、キャッシュされたこれらの状態を再利用することができ、応答を生成するために必要な待ち時間と計算負荷を大幅に削減する。これは、会話型AIや繰り返しクエリを含むアプリケーションで特に効果的である。

プロンプト・キャッシングの仕組み

LLMが文章や段落などの一連のテキストを処理するとき、コンテキストウィンドウ内の各トークンに対してアテンションスコアを計算する。これは、特に長いプロンプトの場合、計算コストのかかる部分である。KVキャッシングと呼ばれるプロンプトキャッシングの核となる考え方は、冗長な作業を避けることである。モデルがすでに「次の英文をフランス語に翻訳してください」というフレーズを処理した場合、その結果の内部状態を保存する。後に「次の英語テキストをフランス語に翻訳してください:'Hello, world!'」というプロンプトを受け取ると、最初のフレーズに対してキャッシュされた状態をロードし、新しい部分「'Hello, world!'」に対してのみ計算を開始することができる。これによって、後続の同様のリクエストに対するテキスト生成のプロセスがはるかに速くなる。vLLMのようなシステムは、このプロセスを効率的に管理し、全体のスループットを向上させるように設計されている。

実世界での応用

プロンプト・キャッシングは、多くの実世界のAIシステムにとって重要な最適化であり、より速い応答を提供することでユーザー体験を向上させる。

  • 対話型チャットボットとバーチャルアシスタントチャットボットの会話では、各ターンは以前のやりとりの上に構築されます。会話の履歴をプレフィックスとしてキャッシュすることで、対話全体を再処理することなく次の応答を生成することができ、より流動的で応答性の高い対話につながります。これは、最新のバーチャルアシスタントのパフォーマンスにとって基本的なことです。
  • コード生成と補完GitHub CopilotのようなAIを搭載したコーディングアシスタントは、頻繁にキャッシュを使用する。ファイル内の既存のコードは、長いプロンプトとして機能する。このコードのKV状態をキャッシュすることで、モデルは、文字が入力されるたびにファイル全体を再分析することなく、次の行の候補をすばやく生成したり、関数を完成させたりすることができ、リアルタイムの推論が可能になる。

プロンプト・キャッシングと関連概念

プロンプト・キャッシングを他の関連技術と区別することは有益である:

  • プロンプトエンジニアリング:AIモデルから望ましい反応を引き出すために、効果的なプロンプトを設計することに重点を置く。キャッシングは、プロンプトの設計の良し悪しに関わらず、プロンプトの実行を最適化します。
  • プロンプト・エンリッチメント:プロンプトがモデルに送信される前に、ユーザーのプロンプトにコンテキストや明確な情報を追加すること。キャッシュは、モデルが(潜在的にエンリッチされた)プロンプトを処理している間、または処理後に行われます。
  • プロンプト・チューニングそして ローラ:これらはパラメータ効率の良い微調整(PEFT)手法であり、追加パラメータの小さなセットを学習することでモデルの動作を適応させる。キャッシングは推論時間の最適化で、モデルの重み自体は変更しません。
  • 検索補強型ジェネレーション(RAG):外部の知識ベースから関連情報を取得し、プロンプトのコンテキストに追加することで、プロンプトを拡張する。RAGは入力を変更するが、キャッシングは組み合わされたプロンプト(元のクエリ+検索されたデータ)の処理に適用することができる。
  • 標準出力キャッシュ: 従来のWebキャッシュはリクエストの最終出力を保存する。プロンプトのキャッシュはしばしばモデルの処理パイプライン内の中間的な計算状態を保存し、特に共通の接頭辞を持ちながら異なる語尾を持つプロンプトに対して、より柔軟な再利用を可能にします。

プロンプトキャッシングは主にLLMと関連しているが、計算をキャッシュするという基本原理は、テキストプロンプトが他のモダリティと相互作用する複雑なマルチモーダルモデルにも適用できる可能性がある。しかし、Ultralytics YOLOのようなモデルを使用した物体検出のような標準的なコンピュータビジョン(CV)タスクでは、あまり一般的ではありません。Ultralytics HUBのようなプラットフォームは、AIモデルのデプロイと管理を合理化し、キャッシングのような最適化は、本番環境でのパフォーマンスにとって非常に重要です。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク