يولو فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التخزين المؤقت للموجه

عزز كفاءة الذكاء الاصطناعي باستخدام التخزين المؤقت الفوري! تعلم كيفية تقليل زمن الوصول وخفض التكاليف وتوسيع نطاق تطبيقات الذكاء الاصطناعي باستخدام هذه التقنية القوية.

التخزين المؤقت للمطالبات هو تقنية تحسين تُستخدم بشكل أساسي مع نماذج اللغات الكبيرة (LLMs) لتسريع عملية الاستدلال. وهي تعمل عن طريق تخزين النتائج الحسابية الوسيطة لجزء أولي من المطالبة. عندما تشترك مطالبة جديدة في نفس البداية، والمعروفة باسم البادئة، يمكن للنموذج إعادة استخدام هذه الحالات المخزنة مؤقتًا بدلاً من إعادة حسابها. تقلل هذه الطريقة بشكل كبير من زمن الاستجابة والحمل الحسابي المطلوب لتوليد استجابة، مما يجعلها فعالة بشكل خاص في التطبيقات التي تتضمن الذكاء الاصطناعي التخاطبي أو الاستعلامات المتكررة. من خلال تجنب العمليات الحسابية الزائدة عن الحاجة، يعمل التخزين المؤقت الفوري على تحسين الإنتاجية وخفض التكاليف التشغيلية.

كيف يعمل تخزين المطالبات مؤقتًا (Prompt Caching)

عندما يعالج LLM تسلسلًا من النص، فإنه يحسب الحالات الداخلية لكل رمز داخل نافذة السياق الخاص به. هذا جزء مكلف حسابيًا من العملية، خاصةً بالنسبة للمطالبات الطويلة. تتمثل الفكرة الأساسية وراء التخزين المؤقت للمطالبات، والذي يُطلق عليه غالبًا التخزين المؤقت KV، في حفظ هذه الحالات الداخلية، وتحديدًا أزواج المفاتيح-القيم (KV) في آلية الانتباه. على سبيل المثال، إذا قام النموذج بمعالجة البادئة "ترجمة النص الإنجليزي التالي إلى الفرنسية:"، فإنه يخزن الحالة الناتجة. عندما يتلقى لاحقًا مطالبة كاملة مثل "ترجمة النص الإنجليزي التالي إلى الفرنسية: "مرحبًا أيها العالم!"، يمكنه تحميل الحالة المخزنة مؤقتًا للعبارة الأولية والبدء في عملية حسابية للجزء الجديد فقط. وهذا يجعل عملية توليد النص أسرع بكثير للطلبات اللاحقة المماثلة. صُمّمت أنظمة مثل مشروع vLLM مفتوح المصدر لإدارة هذه العملية بكفاءة، مما يحسّن إنتاجية محرك الاستدلال بشكل عام.

تطبيقات واقعية

يُعد التخزين المؤقت الفوري للتخزين المؤقت تحسينًا حاسمًا للعديد من أنظمة الذكاء الاصطناعي في العالم الحقيقي، مما يعزز تجربة المستخدم من خلال توفير استجابات أسرع.

  • روبوتات الدردشة التفاعلية والمساعدين الافتراضيين: في محادثة روبوت الدردشة الآلية، يعتمد كل دور على التبادلات السابقة. يسمح التخزين المؤقت لسجل المحادثة كبادئة للنموذج بإنشاء الرد التالي دون إعادة معالجة الحوار بأكمله. يؤدي ذلك إلى تفاعل أكثر مرونة واستجابة، وهو أمر أساسي لأداء المساعدين الافتراضيين الحديثين ويحسن تجربة المستخدم في منصات مثل Poe.
  • إنشاء التعليمات البرمجية واستكمالها: كثيراً ما يستخدم مساعدي الترميز المدعومين بالذكاء الاصطناعي، مثل GitHub Copilot، التخزين المؤقت. يعمل الرمز الموجود في ملف ما بمثابة موجه طويل. من خلال التخزين المؤقت لحالات KV لهذا الرمز، يمكن للنموذج توليد اقتراحات للسطر التالي أو إكمال دالة بسرعة دون الحاجة إلى إعادة تحليل الملف بأكمله في كل مرة يتم فيها كتابة حرف، مما يجعل الاستدلال في الوقت الفعلي ممكنًا. هذه التقنية هي جزء أساسي من كيفية عمل مساعدي أكواد الذكاء الاصطناعي.

التخزين المؤقت للمطالبات مقابل المفاهيم ذات الصلة

من المفيد تمييز التخزين المؤقت الفوري عن التقنيات الأخرى ذات الصلة في التعلم الآلي (ML):

  • هندسة موجه: يركز على تصميم مطالبات فعالة لاستنباط الاستجابات المطلوبة من نموذج الذكاء الاصطناعي. يعمل التخزين المؤقت على تحسين تنفيذ هذه المطالبات، بغض النظر عن مدى جودة هندستها.
  • الإثراء الفوري: يتضمن إضافة سياق أو توضيح معلومات إلى مطالبة المستخدم قبل إرسالها إلى النموذج. يحدث التخزين المؤقت أثناء معالجة النموذج للمطالبة (التي يُحتمل أن تكون غنية).
  • الضبط الفوري و لورا: هما طريقتان للضبط الدقيق الفعال للمعلمات (PEFT) اللتان تعملان على تكييف سلوك النموذج من خلال تدريب مجموعات صغيرة من المعلمات الإضافية. التخزين المؤقت هو تحسين في وقت الاستدلال لا يغير أوزان النموذج نفسه.
  • الاسترجاع-التوليد المعزز (RAG): يعزز المطالبات من خلال استرجاع المعلومات ذات الصلة من قواعد المعرفة الخارجية وإضافتها إلى سياق المطالبة. بينما يقوم RAG بتعديل المدخلات، لا يزال من الممكن تطبيق التخزين المؤقت على معالجة المطالبة المدمجة.
  • التخزين المؤقت للمخرجات القياسية: يخزن التخزين المؤقت التقليدي للويب كما تديره شبكة توصيل المحتوى (CDN) المخرجات النهائية للطلب. أما التخزين المؤقت الموجه فيخزن الحالات الحسابية الوسيطة ضمن خط معالجة النموذج، مما يسمح بإعادة استخدام أكثر مرونة.

في حين أن التخزين المؤقت للمطالبات يرتبط في الغالب بمهام التخزين المؤقت، يمكن تطبيق المبدأ الأساسي لحسابات التخزين المؤقت في النماذج المعقدة متعددة الوسائط حيث تتفاعل المطالبات النصية مع طرائق أخرى. ومع ذلك، فهو أقل شيوعًا في مهام الرؤية الحاسوبية القياسية مثل اكتشاف الأجسام باستخدام نماذج مثل Ultralytics YOLO11. تُعد منصات نشر النماذج حيث تصبح التحسينات مثل التخزين المؤقت ضرورية للأداء في بيئات الإنتاج، كما هو مفصل في الموارد من مزودي الخدمة مثل Anyscale و NVIDIA.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة