Prompt Caching
اكتشف كيف تعمل ذاكرة التخزين المؤقت للمطالبات على تحسين الذكاء الاصطناعي التوليدي من خلال تقليل زمن الانتقال والتكاليف. تعلم دورها في نماذج اللغات الكبيرة ورؤية الكمبيوتر في الوقت الفعلي مع Ultralytics YOLO26.
يُعد تخزين المطالبات المؤقت استراتيجية تحسين متقدمة تُستخدم بشكل أساسي في الذكاء الاصطناعي التوليدي لتقليل التكاليف بشكل كبير وتحسين أوقات الاستجابة أثناء الاستدلال. في مجال نماذج اللغات الكبيرة (LLMs)، تتطلب معالجة النصوص تحويل المدخلات إلى تسلسلات رقمية تُعرف باسم الرموز (Tokens). غالباً ما يظل جزء كبير من بيانات الإدخال—مثل تعليمات النظام التفصيلية، أو وثيقة قانونية طويلة، أو قاعدة برمجية—ثابتاً عبر العديد من استعلامات المستخدمين المختلفة. وبدلاً من إعادة معالجة هذه الأقسام غير المتغيرة مع كل طلب جديد، يقوم تخزين المطالبات المؤقت بحفظ الحالات الرياضية التي تم حسابها مسبقاً (والتي غالباً ما تُسمى ذاكرة التخزين المؤقت للمفاتيح والقيم Key-Value cache) في الذاكرة. وهذا يسمح لمحرك الاستدلال بتجاوز العمليات الحسابية المتكررة، مع تركيز القوة الحسابية فقط على الأجزاء الديناميكية الجديدة من مطالبة المستخدم.
Link to this sectionالآليات والفوائد#
تعتمد الآليات الأساسية لتخزين المطالبات المؤقت على بنية المحولات (Transformers)، التي تعالج البيانات بشكل تسلسلي. من خلال تحديد البادئة المتكررة للمطالبة، يمكن للنظام تحميل حالات آلية الانتباه (Attention Mechanism) المقابلة مباشرة من الذاكرة عالية السرعة.
- تقليل زمن الاستجابة (Latency): يؤدي التخزين المؤقت إلى خفض زمن استجابة الاستدلال بشكل كبير، وتحديداً الوقت المستغرق للرمز الأول (TTFT). يضمن هذا أن تبدو التطبيقات في الوقت الفعلي، مثل روبوتات الدردشة التفاعلية، فورية بالنسبة للمستخدم.
- كفاءة التكلفة: نظراً لأن مزودي الحوسبة السحابية غالباً ما يحاسبون بناءً على مدة الحوسبة أو معالجة الرموز، فإن تجاوز العمليات الشاقة للسياق الثابت يؤدي إلى وفورات كبيرة.
- زيادة الإنتاجية (Throughput): من خلال تحرير موارد GPU، يمكن للخوادم التعامل مع حجم أكبر من الطلبات المتزامنة، مما يجعل البنية التحتية لتقديم النماذج أكثر قابلية للتوسع.
Link to this sectionتطبيقات العالم الحقيقي#
يُحدث تخزين المطالبات المؤقت تحولاً في الصناعات التي تعتمد على سياق بيانات مكثف.
-
مساعدو البرمجة: في تطوير البرمجيات، تستفيد أدوات مثل GitHub Copilot من كميات هائلة من السياق من الملفات المفتوحة للمستخدم وهيكل المستودع. من خلال تخزين تضمينات (Embeddings) قاعدة الكود مؤقتاً، يمكن للنموذج تقديم اقتراحات إكمال الكود في الوقت الفعلي دون الحاجة إلى إعادة تحليل هيكل ملف المشروع بالكامل مع كل ضغطة مفتاح.
-
التحليل القانوني والطبي: غالباً ما يستعلم المحترفون وكلاء الذكاء الاصطناعي (AI Agents) مقابل وثائق ثابتة ضخمة، مثل أرشيفات السوابق القضائية أو سجلات تاريخ المرضى. باستخدام التوليد المعزز بالاسترجاع (RAG)، يقوم النظام باسترداد أجزاء ذات صلة من النص. يضمن تخزين المطالبات المؤقت عدم الحاجة إلى إعادة حساب السياق التأسيسي لهذه الوثائق المستردة للأسئلة المتابعة، مما يبسط سير عمل الإجابة على الأسئلة.
Link to this sectionالأهمية في الرؤية الحاسوبية#
على الرغم من ارتباط مفهوم التخزين المؤقت تقليدياً بالنصوص، إلا أنه حيوي في الرؤية الحاسوبية (CV) متعددة الوسائط. تسمح نماذج مثل YOLO-World للمستخدمين باكتشاف الكائنات باستخدام مطالبات نصية مفتوحة المفردات. عندما يحدد المستخدم قائمة من الفئات (على سبيل المثال، "شخص، حقيبة ظهر، سيارة")، يقوم النموذج بحساب تضمينات نصية لهذه الفئات. يمنع تخزين هذه التضمينات مؤقتاً النموذج من الحاجة إلى إعادة ترميز المطالبات النصية لكل إطار فيديو، مما يتيح استدلالاً في الوقت الفعلي عالي السرعة.
Link to this sectionالتمييز بين المصطلحات ذات الصلة#
- مقابل هندسة المطالبات (Prompt Engineering): تتضمن هندسة المطالبات الجهد البشري لتصميم مدخلات نصية مثالية لتوجيه النموذج. بينما يُعد تخزين المطالبات المؤقت تحسيناً حسابياً في الواجهة الخلفية يقوم بحفظ معالجة الجهاز لهذا النص.
- مقابل ضبط المطالبات (Prompt Tuning): ضبط المطالبات هو تقنية تعلم نقل المعرفة (Transfer Learning) تقوم بتحديث أوزان نموذج محددة (مطالبات ناعمة) لتكييف النموذج مع مهمة ما. التخزين المؤقت لا يغير معلمات النموذج؛ بل يحفظ فقط حالات التنشيط أثناء وقت التشغيل.
Link to this sectionمثال برمجي: تخزين تضمينات النصوص مؤقتاً في الرؤية الحاسوبية#
يوضح مقتطف Python التالي مفهوم "تخزين" مطالبة مؤقتاً في سياق الرؤية باستخدام حزمة ultralytics. من خلال تعيين الفئات مرة واحدة في نموذج YOLO-World، يتم حساب تضمينات النص وتخزينها (الاستمرار)، مما يسمح للنموذج بالتنبؤ بكفاءة على صور متعددة دون إعادة معالجة الوصف النصي.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")لإدارة مجموعات البيانات ونشر هذه النماذج المحسنة، توفر منصة Ultralytics بيئة شاملة لتصنيف البيانات، وتدريب نماذج متطورة مثل YOLO26، ومراقبة أداء النشر عبر مختلف أجهزة الذكاء الاصطناعي على الحافة (Edge AI).






