プロンプトキャッシングがレイテンシとコストを削減することで、生成AIをどのように最適化するかをご覧ください。LLMおよびUltralytics YOLO26を活用したリアルタイムコンピュータビジョンにおけるその役割を学びましょう。
プロンプトキャッシュは、主に生成AIで利用される高度な最適化戦略であり、推論時のコストを大幅に削減し、応答時間を改善します。大規模言語モデル (LLM)の分野では、テキスト処理には入力をトークンとして知られる数値シーケンスに変換する必要があります。多くの場合、詳細なシステム指示、長文の法的文書、コードベースなど、入力データのかなりの部分が多数の異なるユーザークエリ間で静的です。プロンプトキャッシュは、これらの不変のセクションを新しいリクエストごとに再処理する代わりに、事前に計算された数学的状態(しばしばKey-Valueキャッシュと呼ばれる)をメモリに保存します。これにより、推論エンジンは冗長な計算をスキップし、ユーザープロンプトの新しい動的な部分にのみ計算能力を集中させることができます。
プロンプトキャッシュの基本的なメカニズムは、データをシーケンシャルに処理するTransformerのアーキテクチャに依存しています。プロンプトの反復的なプレフィックスを識別することで、システムは対応するアテンションメカニズムの状態を高速メモリから直接ロードできます。
プロンプトキャッシュは、大量のデータコンテキストに依存する業界を変革しています。
伝統的にテキストと関連付けられていますが、キャッシュの概念はマルチモーダルな コンピュータービジョン(CV)において不可欠です。YOLO-Worldのようなモデルは、オープンボキャブラリーのテキストプロンプトを使用してオブジェクトを detect することを可能にします。ユーザーがクラスのリスト(例:「人、バックパック、車」)を定義すると、モデルはこれらのクラスのテキスト埋め込みを計算します。これらの埋め込みをキャッシュすることで、モデルがすべてのビデオフレームに対してテキストプロンプトを再エンコードする必要がなくなり、高速な リアルタイム推論が可能になります。
以下の通りである。 Python このスニペットは、〜を使用してビジョンコンテキストにおけるプロンプトの「キャッシング」の概念を示しています。 ultralytics パッケージ。〜で一度クラスを設定することで、 YOLO モデルでは、テキスト埋め込みが計算され、保存(永続化)されるため、テキスト記述を再処理することなく、複数の画像に対してモデルが効率的に予測を行うことができます。
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
データセットの管理とこれらの最適化されたモデルのデプロイのために、Ultralytics Platformは、データのアノテーション、YOLO26のような最先端モデルのトレーニング、および様々なEdge AIデバイスにおけるデプロイ性能の監視のための包括的な環境を提供します。

未来の機械学習で、新たな一歩を踏み出しましょう。