مسرد المصطلحات

التخزين المؤقت الموجه

عزز كفاءة الذكاء الاصطناعي باستخدام التخزين المؤقت الفوري! تعرّف على كيفية تقليل زمن الوصول، وخفض التكاليف، وتوسيع نطاق تطبيقات الذكاء الاصطناعي باستخدام هذه التقنية القوية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التخزين المؤقت للمطالبات هو تقنية تحسين تُستخدم بشكل أساسي مع نماذج اللغات الكبيرة (LLMs) ونماذج الذكاء الاصطناعي التوليدية الأخرى. وهي تتضمن تخزين نتائج معالجة موجه إدخال معين (أو أجزاء منه) بحيث يمكن استرجاع النتيجة المخزنة بسرعة وإعادة استخدامها في حال تلقي نفس الموجه أو موجه مشابه جدًا مرة أخرى، بدلاً من إعادة حسابها من الصفر. يقلل هذا الأمر بشكل كبير من زمن الاستنتاج، ويقلل من التكاليف الحسابية المرتبطة بتشغيل نماذج قوية مثل GPT-4، ويحسن الكفاءة الكلية وقابلية التوسع في تطبيقات الذكاء الاصطناعي.

كيفية عمل التخزين المؤقت الموجه

عندما تعالج معالج الشبكة العصبية LLM مطالبة ما، فإنها تمر بعدة خطوات حسابية، بما في ذلك الترميز والحسابات المعقدة داخل طبقات شبكتها العصبية، وغالبًا ما تتضمن آليات الانتباه. يخزن التخزين المؤقت للمطالب عادةً الحالة الحسابية الوسيطة (مثل أزواج المفاتيح-القيم في طبقات الانتباه في بنية المحولات، وغالبًا ما يشار إليها باسم ذاكرة التخزين المؤقت KV) المرتبطة بمطالبة معينة أو بادئة لمطالبة. عند وصول مطالبة جديدة، يتحقق النظام مما إذا كانت البادئة الخاصة بها تتطابق مع مطالبة تمت معالجتها وتخزينها مؤقتًا مسبقًا. إذا تم العثور على تطابق، يتم استرجاع الحالة الوسيطة المخزنة مؤقتًا، مما يسمح للنموذج بتجاوز خطوات الحساب الأولية والبدء في توليد الاستجابة من تلك الحالة المحفوظة. هذا الأمر فعال بشكل خاص في الذكاء الاصطناعي التخاطبي أو السيناريوهات التي تتشارك فيها المطالبات بدايات مشتركة. غالبًا ما تستخدم الأنظمة مخازن القيمة الرئيسية مثل Redis أو Memcached لإدارة هذه المخازن المؤقتة بكفاءة.

فوائد التخزين المؤقت الفوري

يوفر تنفيذ التخزين المؤقت الفوري العديد من المزايا:

التطبيقات الواقعية

يعد التخزين المؤقت الفوري ذا قيمة في مختلف الأنظمة التي تعتمد على الذكاء الاصطناعي:

  1. الذكاء الاصطناعي التحادثي والمساعدين الافتراضيين: في الأنظمة مثل المساعدين الافتراضيين لخدمة العملاء، تبدأ العديد من المحادثات بتحية متشابهة أو أسئلة شائعة (على سبيل المثال، "ما هي ساعات العمل لديكم؟"، "كيف يمكنني إعادة تعيين كلمة المرور الخاصة بي؟) يسمح التخزين المؤقت للمعالجة الأولية لهذه المدخلات الشائعة للنظام بالاستجابة بشكل أسرع بكثير. على سبيل المثال، يمكن تخزين حالة المعالجة بعد معالجة "مرحبًا، أحتاج إلى مساعدة في..." مؤقتًا وإعادة استخدامها على الفور لعدة مستخدمين يبدأون طلبات مماثلة. استكشف الذكاء الاصطناعي في خدمة العملاء.
  2. منصات توليد المحتوى: غالبًا ما تتلقى الأدوات المستخدمة لتوليد النصوص، مثل مساعدي الكتابة أو مولدات التعليمات البرمجية، مطالبات بتعليمات متكررة أو بادئات سياق (على سبيل المثال، "ترجمة النص التالي إلى الفرنسية:"، "اكتب كود Python لـ..."). يؤدي التخزين المؤقت للحالة المطابقة لهذه البادئات إلى تسريع عملية التوليد، وهو أمر مفيد بشكل خاص في البيئات التفاعلية أو البيئات ذات الحجم الكبير. تعرف على حالات استخدام الذكاء الاصطناعي التوليدي.

التخزين المؤقت الموجه مقابل المفاهيم ذات الصلة

من المفيد التمييز بين التخزين المؤقت الفوري والتقنيات الأخرى ذات الصلة:

  • هندسة موجه: يركز على تصميم مطالبات فعالة لاستنباط الاستجابات المطلوبة من نموذج الذكاء الاصطناعي. يعمل التخزين المؤقت على تحسين تنفيذ هذه المطالبات، بغض النظر عن مدى جودة هندستها.
  • الإثراء الفوري: يتضمن إضافة سياق أو توضيح معلومات إلى مطالبة المستخدم قبل إرسالها إلى النموذج. يحدث التخزين المؤقت أثناء أو بعد أن يعالج النموذج المطالبة (التي يُحتمل أن تكون غنية).
  • الضبط الفوري و لورا: هما طريقتان للضبط الدقيق الفعال للمعلمات (PEFT) اللتان تعملان على تكييف سلوك النموذج من خلال تدريب مجموعات صغيرة من المعلمات الإضافية، مما يؤدي إلى تخصيص النموذج بشكل فعال لمهام محددة. التخزين المؤقت هو تحسين في وقت الاستدلال لا يغير النموذج نفسه.
  • الاسترجاع-التوليد المعزز (RAG): يعزز المطالبات من خلال استرجاع المعلومات ذات الصلة من قواعد المعرفة الخارجية وإضافتها إلى سياق المطالبة. بينما يقوم RAG بتعديل المدخلات، لا يزال من الممكن تطبيق التخزين المؤقت على معالجة المطالبة المدمجة (الاستعلام الأصلي + البيانات المسترجعة).
  • التخزين المؤقت للمخرجات القياسية: يخزن التخزين المؤقت التقليدي للويب المخرجات النهائية للطلب. غالبًا ما يخزن التخزين المؤقت للمطالبات الحالات الحسابية الوسيطة داخل خط معالجة النموذج، مما يسمح بإعادة استخدام أكثر مرونة، خاصةً للمطالبات التي تشترك في بادئات مشتركة ولكن لها نهايات مختلفة.

في حين أن التخزين المؤقت للمطالبات يرتبط في الغالب مع LLMs، فإن المبدأ الأساسي لحسابات التخزين المؤقت يمكن أن ينطبق في النماذج المعقدة متعددة الوسائط حيث تتفاعل المطالبات النصية مع طرائق أخرى، على الرغم من أنه أقل شيوعًا في مهام الرؤية الحاسوبية القياسية مثل اكتشاف الأشياء باستخدام نماذج مثل Ultralytics YOLO(انظر مقارنات نماذج YOLO ). تعمل المنصات مثل Ultralytics HUB على تبسيط نشر نماذج الذكاء الاصطناعي وإدارتها، حيث يمكن أن تكون التحسينات مثل التخزين المؤقت ضرورية للأداء في بيئات الإنتاج(تعرف على أفضل ممارسات النشر).

قراءة الكل