Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التخزين المؤقت للموجه

عزز كفاءة الذكاء الاصطناعي باستخدام التخزين المؤقت الفوري! تعلم كيفية تقليل زمن الوصول وخفض التكاليف وتوسيع نطاق تطبيقات الذكاء الاصطناعي باستخدام هذه التقنية القوية.

التخزين المؤقت الفوري هو تقنية تحسين متخصصة تُستخدم في نشر نماذج اللغات الكبيرة (LLMs) من أجل تقليل وقت الاستجابة للاستدلال و والتكاليف الحسابية. في سياق الذكاء الاصطناعي التوليدي, تنطوي معالجة المطالبة على تحويل النص إلى تمثيلات رقمية وحساب العلاقات بين كل رمز باستخدام آلية آلية انتباه. عندما يكون جزء كبير من المطالبة - مثل تعليمات النظام الطويلة أو مجموعة من الأمثلة - يظل ثابتًا عبر طلبات متعددة، فإن التخزين المؤقت للمطالبات تسمح عملية التخزين المؤقت للنظام بتخزين الحالات الرياضية الوسيطة (تحديدًا أزواج المفاتيح-القيم) لذلك النص الثابت الثابتة. بدلًا من إعادة حساب هذه الحالات لكل استعلام جديد، يسترجعها محرك الاستدلال يسترجعها محرك الاستدلال من الذاكرة, مما يمكّن النموذج من تركيز قدرته على المعالجة فقط على الأجزاء الديناميكية الجديدة من المدخلات.

الآليات والفوائد

الآلية الأساسية وراء التخزين المؤقت الفوري تعتمد على إدارة نافذة السياق بكفاءة. عندما يعالج LLM يُنشئ "ذاكرة تخزين مؤقت للمفاتيح والقيمة" (KV Cache) تمثل فهم النموذج للنص حتى تلك النقطة. يعامل التخزين المؤقت للموجه segment الأولي من المطالبة (البادئة) كأصل قابل لإعادة الاستخدام.

  • تقليل زمن الاستجابة: من خلال تخطي حساب البادئة المخزنة مؤقتًا، فإن الوقت إلى الرمز الأول (TTFT) بشكل كبير، مما يؤدي إلى استجابات أكثر سرعة في سيناريوهات الاستدلال في الوقت الحقيقي.
  • كفاءة التكلفة: منذ وحدات معالجة الرسومات (GPUs) تقضي وقتًا أقل في معالجة الرموز الزائدة عن الحاجة، تنخفض موارد الحوسبة الإجمالية المطلوبة لكل طلب، مما يقلل من النفقات التشغيلية لتشغيل خدمات الذكاء الاصطناعي (AI).
  • زيادة الإنتاجية: يمكن للأنظمة التعامل مع حجم أكبر من الطلبات المتزامنة لأن العبء الحسابي لكل طلب فردي يتم تقليل العبء الحسابي لكل طلب على حدة.

تطبيقات واقعية

يعمل التخزين المؤقت الفوري على تغيير طريقة بناء المطورين لتطبيقات تطبيقات التعلم الآلي (ML) وتوسيع نطاقها, لا سيما تلك التي تتضمن معالجة النصوص الثقيلة.

  1. مساعدو الترميز المدركون للسياق: في الأدوات التي توفر إكمال التعليمات البرمجية، غالبًا ما يكون المحتوى الكامل لملف الحالي والمكتبات المشار إليها غالبًا ما يكون بمثابة سياق المطالبة. يمكن أن تكون هذه "البادئة" آلاف من الرموز. باستخدام التخزين المؤقت للمطالبة، يمكن للمساعد تخزين حالة الملف مؤقتًا. بينما يكتب المطور (إضافة الرموز الجديدة)، يعالج النموذج الأحرف الجديدة فقط بدلاً من إعادة قراءة بنية الملف بالكامل، مما يتيح أوقات الاستجابة التي تقل عن الثانية التي نراها في بيئات التطوير المتكاملة الحديثة (IDEs).
  2. تحليل المستندات والأسئلة والأجوبة: ضع في اعتبارك نظامًا مصممًا للإجابة عن أسئلة حول ملف PDF مكون من 50 صفحة من 50 صفحة. باستخدام الاسترجاع-التوليد المعزز (RAG)، يتم إدخال نص الدليل في النموذج. بدون التخزين المؤقت، في كل مرة يطرح فيها المستخدم سؤالاً، يجب على النموذج إعادة معالجة الدليل بالكامل بالإضافة إلى السؤال. مع التخزين المؤقت الفوري، يتم العمل الحسابي الثقيل لفهم الدليل مرة واحدة وتخزينه. يتم إلحاق الأسئلة اللاحقة بهذه الحالة المخزنة مؤقتًا، مما يجعل تفاعل الإجابة عن الأسئلة بشكل سلس و وفعالاً.

مفهوم التنفيذ التقني

في حين أن التخزين المؤقت الفوري هو أمر داخلي في خوادم الاستدلال LLM، فإن فهم بنية البيانات يساعد في توضيح المفهوم. تخزن "ذاكرة التخزين المؤقت" بشكل أساسي موتر (مصفوفات متعددة الأبعاد) تمثل حالات الانتباه.

مقتطف Python التالي باستخدام torch يوضّح شكل ومفهوم tensor ذاكرة التخزين المؤقت ذات القيمة المفتاحية, وهو ما يتم تخزينه وإعادة استخدامه أثناء التخزين المؤقت الفوري:

import torch

# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128

# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)

print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.

التمييز بين المفاهيم ذات الصلة

من المهم التفريق بين التخزين المؤقت الفوري للتخزين المؤقت والمصطلحات الأخرى في مسرد مصطلحاتUltralytics لتطبيق استراتيجية التحسين الصحيحة.

  • مقابل. هندسة الموجهات: تركز هندسة الموجهات على صياغة محتوى وهيكل مدخلات النص لاستنباط أفضل استجابة. يركز التخزين المؤقت للموجه على تحسين التنفيذ الحسابي لتلك المدخلات.
  • مقابل. البحث الدلالي: يبحث البحث الدلالي (غالبًا ما يُستخدم في مخرجات التخزين المؤقت) عن استعلامات متشابهة لإرجاع مكتوبة مسبقًا. لا يزال التخزين المؤقت الموجه يعمل على تشغيل النموذج لتوليد استجابة فريدة؛ إنه ببساطة يقوم بالتقديم السريع من خلال قراءة سياق الإدخال.
  • ضد. الضبط الدقيق: الضبط الدقيق يغيّر بشكل دائم أوزان النموذج لتعلم معلومات جديدة. لا يغير التخزين المؤقت التخزين المؤقت لا يغير أوزان النموذج؛ فهو يخزن مؤقتًا حالات التنشيط لمدخلات محددة جلسة.
  • مقابل. التكميم الكمي للنموذج: يقلل التكميم الكمي من دقة معلمات النموذج لتوفير الذاكرة وتسريع الاستدلال بشكل عام. التخزين المؤقت الموجه هو تحسين لوقت التشغيل خصيصًا لبيانات الإدخال، وغالبًا ما يُستخدم مع التكميم.

في حين أن التخزين المؤقت الفوري هو الأصل في معالجة اللغة الطبيعية (NLP), فإن مبادئ الكفاءة عالمية. في الرؤية الحاسوبية، فإن نماذج مثل YOLO11 تم تحسينها معماريًا من أجل السرعة، مما يضمن أن مهام اكتشاف الأجسام تحقق معدلات إطارات عالية دون الحاجة إلى نفس النوع من التخزين المؤقت للحالة المستخدمة في النماذج اللغوية ذاتية الانحدار. ومع ذلك، مع تتطور النماذج متعددة الوسائط لمعالجة الفيديو و والنص معًا، أصبح التخزين المؤقت للرموز المرئية مجالًا ناشئًا من مجالات البحث الموضحة في أوراق بحثية على arXiv.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن