プロンプト圧縮がAIの効率をどのように最適化するのかを探ってみましょう。Ultralytics を活用して、LLMのトークン使用量を削減し、コストを抑え、推論速度を向上させる方法を今すぐ学びましょう。
プロンプト圧縮は、大規模言語モデル(LLM)や マルチモーダルモデルに 提供される入力テキストの長さと複雑さを 削減するために設計された高度な最適化技術です。 プロンプト圧縮は、中核となる意味を保持しつつ、 冗長な単語、無関係な文脈、ストップワードをアルゴリズム的に除去することで、 AIシステムが情報をより効率的に処理できるようにします。この手法は、 計算コストの最小化、 推論の遅延の低減、およびモデルが 最大コンテキストウィンドウを超過するのを防ぐために、ますます重要になっています。
アーキテクチャのレベルでは、プロンプト圧縮では、多くの場合、より小型で特化されたモデルや情報理論に基づく アルゴリズムを用いて、与えられたプロンプト内の各トークンの重要度を評価します。 トークンの統合やエントロピーに基づく剪定といった手法により、 全体的な意味への寄与が小さいトークンを特定して削除します。これにより、最終的な入力には、最も高密度に凝縮された 情報のみが含まれるようになります。
権威ある機関による最近の研究では、高度に圧縮されたプロンプトを用いることで、 複雑な推論タスクにおける性能を維持しつつ、トークン消費量を大幅に削減できることが明らかになっています。スケーラブルな アプリケーションにAIを組み込む開発者にとって、OpenAIが定める プロンプト最適化ガイドラインに従い、 圧縮フレームワークを活用することは、効率的なデプロイメントのための標準的なベストプラクティスです。
プロンプト圧縮は、膨大なテキストデータや視覚データを迅速に処理する必要がある場面において、 即座に価値をもたらします:
堅牢な 機械学習運用(MLOps) パイプラインを構築するには、プロンプトの圧縮と関連する概念とを区別することが重要です:
コンピュータビジョン(CV)において、プロンプト圧縮の 原則は、テキストクエリを受け付けて物体を識別するオープンボキャブラリモデルを使用する際に適用されます。クラスの 記述を簡潔に保つことで、テキストのエンコードを高速化し、メモリのオーバーヘッドを削減できます。
スピードが最優先される固定クラスの本番環境では、開発者は通常、テキストプロンプト型の モデルから、Ultralytics のような高度に最適化された固定アーキテクチャのモデルへと移行します。Ultralytics を使用すれば、データセットを効率的に管理し、 これらの最先端モデルをトレーニングすることができます。
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()
未来の機械学習で、新たな一歩を踏み出しましょう。