مسرد المصطلحات

التخزين المؤقت الموجه

عزز كفاءة الذكاء الاصطناعي باستخدام التخزين المؤقت الفوري! تعرّف على كيفية تقليل زمن الوصول، وخفض التكاليف، وتوسيع نطاق تطبيقات الذكاء الاصطناعي باستخدام هذه التقنية القوية.

التخزين المؤقت للمطالبات هو تقنية تحسين تُستخدم بشكل أساسي مع نماذج اللغات الكبيرة (LLMs) لتسريع عملية الاستدلال. وهي تعمل من خلال تخزين النتائج الحسابية الوسيطة، وتحديدًا حالات القيمة المفتاحية (KV) في آلية الانتباه، لجزء أولي من المطالبة. عندما تشترك مطالبة جديدة في نفس البداية (البادئة)، يمكن للنموذج إعادة استخدام هذه الحالات المخزنة مؤقتًا بدلاً من إعادة حسابها، مما يقلل بشكل كبير من زمن الاستجابة والحمل الحسابي المطلوب لتوليد استجابة. هذا فعال بشكل خاص في التطبيقات التي تتضمن الذكاء الاصطناعي التخاطبي أو الاستعلامات المتكررة.

كيفية عمل التخزين المؤقت الموجه

عندما يعالج برنامج LLM تسلسل نص، مثل جملة أو فقرة، فإنه يحسب درجات الانتباه لكل رمز في نافذة السياق. هذا جزء مكلف حسابيًا من العملية، خاصةً بالنسبة للمطالبات الطويلة. تتمثل الفكرة الأساسية وراء التخزين المؤقت للمطالبات، الذي يُطلق عليه غالبًا التخزين المؤقت KV، في تجنب العمل الزائد عن الحاجة. إذا كان النموذج قد عالج بالفعل عبارة "ترجم النص الإنجليزي التالي إلى الفرنسية:"، فإنه يخزن الحالة الداخلية الناتجة. عندما يتلقى لاحقًا المطالبة "ترجم النص الإنجليزي التالي إلى الفرنسية: "مرحبًا أيها العالم!"، يمكنه تحميل الحالة المخزنة مؤقتًا للعبارة الأولية ويبدأ عملية الحساب للجزء الجديد فقط "مرحبًا أيها العالم!". هذا يجعل عملية توليد النص أسرع بكثير للطلبات اللاحقة المماثلة. تم تصميم أنظمة مثل vLLM لإدارة هذه العملية بكفاءة، مما يحسن الإنتاجية الإجمالية.

التطبيقات الواقعية

يُعد التخزين المؤقت الفوري للتخزين المؤقت تحسينًا حاسمًا للعديد من أنظمة الذكاء الاصطناعي في العالم الحقيقي، مما يعزز تجربة المستخدم من خلال توفير استجابات أسرع.

  • روبوتات الدردشة التفاعلية والمساعدين الافتراضيين: في محادثة روبوت الدردشة الآلية، يعتمد كل دور على التبادلات السابقة. يسمح التخزين المؤقت لسجل المحادثة كبادئة للنموذج بتوليد الاستجابة التالية دون إعادة معالجة الحوار بأكمله، مما يؤدي إلى تفاعل أكثر مرونة واستجابة. وهذا أمر أساسي لأداء المساعدين الافتراضيين الحديثين.
  • إنشاء التعليمات البرمجية واستكمالها: كثيراً ما يستخدم مساعدي الترميز المدعومين بالذكاء الاصطناعي، مثل GitHub Copilot، التخزين المؤقت. يعمل الرمز الموجود في ملف ما بمثابة موجه طويل. من خلال التخزين المؤقت لحالات KV لهذا الرمز، يمكن للنموذج توليد اقتراحات للسطر التالي أو إكمال الدالة بسرعة دون الحاجة إلى إعادة تحليل الملف بأكمله في كل مرة يتم فيها كتابة حرف، مما يجعل الاستدلال في الوقت الفعلي ممكنًا.

التخزين المؤقت الموجه مقابل المفاهيم ذات الصلة

من المفيد التمييز بين التخزين المؤقت الفوري والتقنيات الأخرى ذات الصلة:

  • هندسة موجه: يركز على تصميم مطالبات فعالة لاستنباط الاستجابات المطلوبة من نموذج الذكاء الاصطناعي. يعمل التخزين المؤقت على تحسين تنفيذ هذه المطالبات، بغض النظر عن مدى جودة هندستها.
  • الإثراء الفوري: يتضمن إضافة سياق أو توضيح معلومات إلى مطالبة المستخدم قبل إرسالها إلى النموذج. يحدث التخزين المؤقت أثناء أو بعد أن يعالج النموذج المطالبة (التي يُحتمل أن تكون غنية).
  • الضبط الفوري و لورا: هما طريقتان للضبط الدقيق الفعال للمعلمات (PEFT) اللتان تعملان على تكييف سلوك النموذج من خلال تدريب مجموعات صغيرة من المعلمات الإضافية. التخزين المؤقت هو تحسين في وقت الاستدلال لا يغير أوزان النموذج نفسه.
  • الاسترجاع-التوليد المعزز (RAG): يعزز المطالبات من خلال استرجاع المعلومات ذات الصلة من قواعد المعرفة الخارجية وإضافتها إلى سياق المطالبة. بينما يقوم RAG بتعديل المدخلات، لا يزال من الممكن تطبيق التخزين المؤقت على معالجة المطالبة المدمجة (الاستعلام الأصلي + البيانات المسترجعة).
  • التخزين المؤقت للمخرجات القياسية: يخزن التخزين المؤقت التقليدي للويب المخرجات النهائية للطلب. غالبًا ما يخزن التخزين المؤقت للمطالبات الحالات الحسابية الوسيطة داخل خط معالجة النموذج، مما يسمح بإعادة استخدام أكثر مرونة، خاصةً للمطالبات التي تشترك في بادئات مشتركة ولكن لها نهايات مختلفة.

في حين أن التخزين المؤقت للمطالبات يرتبط في الغالب بمهام التخزين المؤقت لمهام الرؤية الحاسوبية ذات المستوى المنخفض، إلا أن المبدأ الأساسي لحسابات التخزين المؤقت يمكن تطبيقه في النماذج المعقدة متعددة الوسائط حيث تتفاعل المطالبات النصية مع طرائق أخرى. ومع ذلك، فهو أقل شيوعًا في مهام الرؤية الحاسوبية القياسية (CV) مثل اكتشاف الكائنات باستخدام نماذج مثل Ultralytics YOLO. تعمل المنصات مثل Ultralytics HUB على تبسيط نشر نماذج الذكاء الاصطناعي وإدارتها، حيث يمكن أن تكون التحسينات مثل التخزين المؤقت ضرورية للأداء في بيئات الإنتاج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة