Yolo 深圳
深セン
今すぐ参加
用語集

プロンプトキャッシング

プロンプトキャッシュがレイテンシーとコストを削減することで生成AIを最適化する仕組みを解説。LLM推論やYOLO26などのビジョンモデルの高速化手法を学ぶ。

プロンプトキャッシュは主に生成AIで使用される高度な最適化戦略である 生成AIにおいて において主に用いられる高度な最適化戦略であり、推論時のコストを大幅に削減し応答時間を改善する。大規模言語モデル(LLM)の領域において 大規模言語モデル(LLM)において、テキスト処理には入力データを トークン。詳細なシステム指示、長大な法的文書、あるいは コードベースなど、入力データの大部分は多くの異なるユーザークエリにわたって静的であることが多い。これらの不変セクションを 新しいリクエストごとに再処理する代わりに、プロンプトキャッシュは事前計算された数学的状態(しばしばキーバリューキャッシュと呼ばれる)を メモリに保存する。これにより 推論エンジンが が冗長な計算をスキップし、ユーザーのプルーフトの新規かつ動的な部分のみに計算能力を集中させることが可能になります。

メカニズムと利点

プロンプトキャッシュの基本的な仕組みは、 データを変換するアーキテクチャに依存しています。のアーキテクチャに依存しており、これはデータを順次処理します。プロンプトの反復的な接頭辞を特定することで、システムは対応する注意機構をロードできます。 注意機構 状態を 高速メモリから直接読み込む。

  • レイテンシの低減:キャッシュ化により 推論レイテンシ、特に最初のトークンまでの時間(TTFT)を大幅に削減します。これにより、対話型チャットボットなどのリアルタイムアプリケーションが保証されます。 チャットボットなどのリアルタイムアプリケーションがユーザーにとって瞬時に感じられることを保証します。
  • コスト効率性:クラウドコンピューティング以来 クラウドコンピューティング プロバイダーは多くの場合 コンピューティング時間やトークン処理に基づいて課金するため、静的コンテキストの負荷を回避することで 大幅なコスト削減が実現します。
  • スループットの向上:解放された GPU リソースを解放することで、 サーバーはより多くの同時リクエストを処理できるようになり、 モデル提供 インフラ全体の スケーラビリティを向上させます。

実際のアプリケーション

プロンプトキャッシュは、大量のデータコンテキストに依存する産業を変革している。

  1. コーディングアシスタント:ソフトウェア開発において、 GitHub Copilot は、ユーザーの開いているファイルやリポジトリ構造から膨大な量の文脈を活用します。 コードベースの埋め込みを をキャッシュすることで、モデルは キーストロークごとにプロジェクトファイル構造全体を再解析することなく、リアルタイムのコード補完提案を提供できる。
  2. 法的・医学的分析:専門家はしばしば AIエージェントを 大量の静的文書(判例アーカイブや患者病歴記録など)に対してAIエージェントを照会することが多い。 検索拡張生成(RAG)により、システムは関連するテキスト断片を抽出する。プロンプトキャッシュにより、 検索された文書の基礎となる文脈を、追跡質問のために再計算する必要がなくなり、 質問応答 ワークフローを効率化します。

コンピュータビジョンにおける関連性

従来はテキストに関連付けられてきたものの、キャッシュの概念はマルチモーダル コンピュータビジョン(CV)において極めて重要であるにおいて極めて重要です。 YOLO はユーザーが オープンボキャブラリテキストプロンプトを用いてdetect 可能にします。ユーザーがクラスリスト(例:「人、 リュックサック、車」)を定義すると、モデルはこれらのクラスに対するテキスト埋め込みを計算します。これらの埋め込みをキャッシュすることで、 モデルが動画フレームごとにテキストプロンプトを再エンコードする必要がなくなり、高速な リアルタイム推論を実現します。

関連用語の区別

  • 対プロンプトエンジニアリング プロンプトエンジニアリングとは、モデルを導く最適なテキスト入力を設計する人的努力を指す。プロンプトキャッシュは、そのテキストに対する機械の処理結果を保存するバックエンドの計算最適化技術である。
  • プロンプトチューニングプロンプトチューニングは 転移学習 技術であり 特定の モデル重み (ソフトプロンプト)を更新し、 モデルをタスクに適応させるものです。キャッシュはモデルのパラメータを変更せず、実行時の活性化状態を記憶するだけです。

コード例:ビジョンにおけるテキスト埋め込みのキャッシュ

以下の通りである。 Python スニペットは、ビジョンコンテキスト内でプロンプトを「キャッシュ」する概念を、 ultralytics パッケージ。クラスを 一度だけ設定することで YOLO モデルでは、テキストの埋め込みが計算され保存(永続化)されるため、テキスト記述を再処理することなく複数の画像に対して効率的に予測が可能となる。

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

データセットの管理と最適化されたモデルのデプロイには、 Ultralytics は包括的な環境を提供し、データの注釈付けや YOLO26などの最先端モデルのトレーニング、様々な エッジAI デバイスにおけるデプロイメントのパフォーマンスを監視するための包括的な環境を提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加