プロンプトキャッシュがレイテンシーとコストを削減することで生成AIを最適化する仕組みを解説。LLM推論やYOLO26などのビジョンモデルの高速化手法を学ぶ。
プロンプトキャッシュは主に生成AIで使用される高度な最適化戦略である 生成AIにおいて において主に用いられる高度な最適化戦略であり、推論時のコストを大幅に削減し応答時間を改善する。大規模言語モデル(LLM)の領域において 大規模言語モデル(LLM)において、テキスト処理には入力データを トークン。詳細なシステム指示、長大な法的文書、あるいは コードベースなど、入力データの大部分は多くの異なるユーザークエリにわたって静的であることが多い。これらの不変セクションを 新しいリクエストごとに再処理する代わりに、プロンプトキャッシュは事前計算された数学的状態(しばしばキーバリューキャッシュと呼ばれる)を メモリに保存する。これにより 推論エンジンが が冗長な計算をスキップし、ユーザーのプルーフトの新規かつ動的な部分のみに計算能力を集中させることが可能になります。
プロンプトキャッシュの基本的な仕組みは、 データを変換するアーキテクチャに依存しています。のアーキテクチャに依存しており、これはデータを順次処理します。プロンプトの反復的な接頭辞を特定することで、システムは対応する注意機構をロードできます。 注意機構 状態を 高速メモリから直接読み込む。
プロンプトキャッシュは、大量のデータコンテキストに依存する産業を変革している。
従来はテキストに関連付けられてきたものの、キャッシュの概念はマルチモーダル コンピュータビジョン(CV)において極めて重要であるにおいて極めて重要です。 YOLO はユーザーが オープンボキャブラリテキストプロンプトを用いてdetect 可能にします。ユーザーがクラスリスト(例:「人、 リュックサック、車」)を定義すると、モデルはこれらのクラスに対するテキスト埋め込みを計算します。これらの埋め込みをキャッシュすることで、 モデルが動画フレームごとにテキストプロンプトを再エンコードする必要がなくなり、高速な リアルタイム推論を実現します。
以下の通りである。 Python スニペットは、ビジョンコンテキスト内でプロンプトを「キャッシュ」する概念を、 ultralytics パッケージ。クラスを
一度だけ設定することで YOLO モデルでは、テキストの埋め込みが計算され保存(永続化)されるため、テキスト記述を再処理することなく複数の画像に対して効率的に予測が可能となる。
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
データセットの管理と最適化されたモデルのデプロイには、 Ultralytics は包括的な環境を提供し、データの注釈付けや YOLO26などの最先端モデルのトレーニング、様々な エッジAI デバイスにおけるデプロイメントのパフォーマンスを監視するための包括的な環境を提供します。
