عزز كفاءة الذكاء الاصطناعي باستخدام التخزين المؤقت الفوري! تعلم كيفية تقليل زمن الوصول وخفض التكاليف وتوسيع نطاق تطبيقات الذكاء الاصطناعي باستخدام هذه التقنية القوية.
التخزين المؤقت الفوري هو تقنية تحسين متخصصة تُستخدم في نشر نماذج اللغات الكبيرة (LLMs) من أجل تقليل وقت الاستجابة للاستدلال و والتكاليف الحسابية. في سياق الذكاء الاصطناعي التوليدي, تنطوي معالجة المطالبة على تحويل النص إلى تمثيلات رقمية وحساب العلاقات بين كل رمز باستخدام آلية آلية انتباه. عندما يكون جزء كبير من المطالبة - مثل تعليمات النظام الطويلة أو مجموعة من الأمثلة - يظل ثابتًا عبر طلبات متعددة، فإن التخزين المؤقت للمطالبات تسمح عملية التخزين المؤقت للنظام بتخزين الحالات الرياضية الوسيطة (تحديدًا أزواج المفاتيح-القيم) لذلك النص الثابت الثابتة. بدلًا من إعادة حساب هذه الحالات لكل استعلام جديد، يسترجعها محرك الاستدلال يسترجعها محرك الاستدلال من الذاكرة, مما يمكّن النموذج من تركيز قدرته على المعالجة فقط على الأجزاء الديناميكية الجديدة من المدخلات.
الآلية الأساسية وراء التخزين المؤقت الفوري تعتمد على إدارة نافذة السياق بكفاءة. عندما يعالج LLM يُنشئ "ذاكرة تخزين مؤقت للمفاتيح والقيمة" (KV Cache) تمثل فهم النموذج للنص حتى تلك النقطة. يعامل التخزين المؤقت للموجه segment الأولي من المطالبة (البادئة) كأصل قابل لإعادة الاستخدام.
يعمل التخزين المؤقت الفوري على تغيير طريقة بناء المطورين لتطبيقات تطبيقات التعلم الآلي (ML) وتوسيع نطاقها, لا سيما تلك التي تتضمن معالجة النصوص الثقيلة.
في حين أن التخزين المؤقت الفوري هو أمر داخلي في خوادم الاستدلال LLM، فإن فهم بنية البيانات يساعد في توضيح المفهوم. تخزن "ذاكرة التخزين المؤقت" بشكل أساسي موتر (مصفوفات متعددة الأبعاد) تمثل حالات الانتباه.
مقتطف Python التالي باستخدام torch يوضّح شكل ومفهوم tensor ذاكرة التخزين المؤقت ذات القيمة المفتاحية,
وهو ما يتم تخزينه وإعادة استخدامه أثناء التخزين المؤقت الفوري:
import torch
# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128
# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)
print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.
من المهم التفريق بين التخزين المؤقت الفوري للتخزين المؤقت والمصطلحات الأخرى في مسرد مصطلحاتUltralytics لتطبيق استراتيجية التحسين الصحيحة.
في حين أن التخزين المؤقت الفوري هو الأصل في معالجة اللغة الطبيعية (NLP), فإن مبادئ الكفاءة عالمية. في الرؤية الحاسوبية، فإن نماذج مثل YOLO11 تم تحسينها معماريًا من أجل السرعة، مما يضمن أن مهام اكتشاف الأجسام تحقق معدلات إطارات عالية دون الحاجة إلى نفس النوع من التخزين المؤقت للحالة المستخدمة في النماذج اللغوية ذاتية الانحدار. ومع ذلك، مع تتطور النماذج متعددة الوسائط لمعالجة الفيديو و والنص معًا، أصبح التخزين المؤقت للرموز المرئية مجالًا ناشئًا من مجالات البحث الموضحة في أوراق بحثية على arXiv.