YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

プロンプトキャッシング

プロンプトキャッシングがレイテンシとコストを削減することで、生成AIをどのように最適化するかをご覧ください。LLMおよびUltralytics YOLO26を活用したリアルタイムコンピュータビジョンにおけるその役割を学びましょう。

プロンプトキャッシュは、主に生成AIで利用される高度な最適化戦略であり、推論時のコストを大幅に削減し、応答時間を改善します。大規模言語モデル (LLM)の分野では、テキスト処理には入力をトークンとして知られる数値シーケンスに変換する必要があります。多くの場合、詳細なシステム指示、長文の法的文書、コードベースなど、入力データのかなりの部分が多数の異なるユーザークエリ間で静的です。プロンプトキャッシュは、これらの不変のセクションを新しいリクエストごとに再処理する代わりに、事前に計算された数学的状態(しばしばKey-Valueキャッシュと呼ばれる)をメモリに保存します。これにより、推論エンジンは冗長な計算をスキップし、ユーザープロンプトの新しい動的な部分にのみ計算能力を集中させることができます。

メカニズムと利点

プロンプトキャッシュの基本的なメカニズムは、データをシーケンシャルに処理するTransformerのアーキテクチャに依存しています。プロンプトの反復的なプレフィックスを識別することで、システムは対応するアテンションメカニズムの状態を高速メモリから直接ロードできます。

  • レイテンシの削減:キャッシングにより、推論レイテンシ、特にTime to First Token (TTFT)が劇的に低下します。これにより、インタラクティブなチャットボットのようなリアルタイムアプリケーションが、ユーザーにとって瞬時に感じられるようになります。
  • コスト効率: クラウドコンピューティングプロバイダーは、多くの場合、計算時間またはトークン処理に基づいて課金するため、静的コンテキストの重い処理をスキップすることで、大幅なコスト削減につながります。
  • スループットの向上: GPUリソースを解放することで、サーバーはより多くの同時リクエストを処理できるようになり、モデルサービングインフラストラクチャ全体をよりスケーラブルにします。

実際のアプリケーション

プロンプトキャッシュは、大量のデータコンテキストに依存する業界を変革しています。

  1. コーディングアシスタント: ソフトウェア開発において、GitHub Copilotのようなツールは、ユーザーの開いているファイルやリポジトリ構造から膨大な量のコンテキストを利用します。コードベースの埋め込みをキャッシュすることで、モデルはキーストロークごとにプロジェクトファイル構造全体を再解析することなく、リアルタイムのコード補完候補を提供できます。
  2. 法務および医療分析: 専門家は、判例アーカイブや患者履歴記録などの膨大な静的文書に対して、AIエージェントにクエリを実行することがよくあります。Retrieval-Augmented Generation (RAG)を使用することで、システムは関連するテキストの塊を検索します。プロンプトキャッシュにより、これらの検索された文書の基礎となるコンテキストが、後続の質問のために再計算される必要がなくなり、質問応答ワークフローが効率化されます。

コンピュータビジョンにおける関連性

伝統的にテキストと関連付けられていますが、キャッシュの概念はマルチモーダルな コンピュータービジョン(CV)において不可欠です。YOLO-Worldのようなモデルは、オープンボキャブラリーのテキストプロンプトを使用してオブジェクトを detect することを可能にします。ユーザーがクラスのリスト(例:「人、バックパック、車」)を定義すると、モデルはこれらのクラスのテキスト埋め込みを計算します。これらの埋め込みをキャッシュすることで、モデルがすべてのビデオフレームに対してテキストプロンプトを再エンコードする必要がなくなり、高速な リアルタイム推論が可能になります。

関連用語の区別

  • Vs. プロンプトエンジニアリング: プロンプトエンジニアリングは、モデルをガイドするための最適なテキスト入力を設計する人間の労力を伴います。プロンプトキャッシングは、そのテキストの機械処理を保存するバックエンドの計算最適化です。
  • Vs. プロンプトチューニング: プロンプトチューニングは、特定のモデルの重み(ソフトプロンプト)を更新してモデルをタスクに適応させる転移学習手法です。キャッシングはモデルのパラメータを変更せず、実行時における活性化状態を記憶するだけです。

コード例: ビジョンにおけるテキスト埋め込みのキャッシュ

以下の通りである。 Python このスニペットは、〜を使用してビジョンコンテキストにおけるプロンプトの「キャッシング」の概念を示しています。 ultralytics パッケージ。〜で一度クラスを設定することで、 YOLO モデルでは、テキスト埋め込みが計算され、保存(永続化)されるため、テキスト記述を再処理することなく、複数の画像に対してモデルが効率的に予測を行うことができます。

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

データセットの管理とこれらの最適化されたモデルのデプロイのために、Ultralytics Platformは、データのアノテーション、YOLO26のような最先端モデルのトレーニング、および様々なEdge AIデバイスにおけるデプロイ性能の監視のための包括的な環境を提供します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。