Prompt Compression
اكتشف كيف يعمل ضغط المطالبة على تحسين كفاءة الذكاء الاصطناعي. تعلم كيفية تقليل استخدام رموز LLM، وخفض التكاليف، وتسريع الاستدلال باستخدام Ultralytics YOLO26 اليوم.
ضغط المطالبة هو تقنية تحسين متقدمة مصممة لتقليل طول وتعقيد النص المدخل المقدم إلى نماذج اللغات الكبيرة (LLMs) والنماذج متعددة الوسائط. من خلال التخلص خوارزمياً من الكلمات الزائدة، والسياق غير ذي الصلة، وكلمات التوقف مع الحفاظ على المعنى الدلالي الجوهري، يسمح ضغط المطالبة لأنظمة الذكاء الاصطناعي بمعالجة المعلومات بكفاءة أكبر. وتزداد أهمية هذه الطريقة لتقليل التكاليف الحسابية، وتقليل زمن انتقال الاستدلال، ومنع النماذج من تجاوز الحد الأقصى لـ نافذة السياق.
Link to this sectionكيف يعمل ضغط المطالبة#
على المستوى المعماري، غالباً ما يستخدم ضغط المطالبة نماذج أصغر ومتخصصة أو خوارزميات نظرية المعلومات لتقييم أهمية كل رمز في المطالبة المقدمة. تعمل تقنيات مثل دمج الرموز والتقليم القائم على الإنتروبيا على تحديد وإزالة الرموز التي لا تسهم كثيراً في المعنى العام. وهذا يضمن أن المدخلات النهائية تحتوي فقط على المعلومات الأكثر كثافة.
تشير الأبحاث الحديثة الصادرة عن منظمات موثوقة إلى أن المطالبات المضغوطة للغاية يمكنها الحفاظ على الأداء في مهام الاستدلال المعقدة مع تقليل استهلاك الرموز بشكل كبير. بالنسبة للمطورين الذين يدمجون الذكاء الاصطناعي في تطبيقات قابلة للتطوير، يعد الالتزام بـ إرشادات تحسين المطالبة من OpenAI والاستفادة من أطر عمل الضغط ممارسة قياسية فضلى للنشر الفعال.
Link to this sectionالتطبيقات الواقعية#
يوفر ضغط المطالبة قيمة فورية في السيناريوهات التي تتطلب معالجة سريعة لبيانات نصية أو بصرية مكثفة:
- التوليد المعزز بالاسترجاع (RAG): في تطبيقات البحث المؤسسية، غالباً ما تقوم خطوط أنابيب RAG باسترجاع عشرات المستندات الطويلة للإجابة على استعلام مستخدم واحد. تقوم خوارزميات ضغط المطالبة بتقليص هذه المستندات المسترجعة، وتقطيرها إلى ملخصات واقعية موجزة قبل تغذيتها إلى نموذج التوليد. هذا يمنع فيضان الرموز ويسرع الاستدلال في الوقت الفعلي.
- وكلاء الذكاء الاصطناعي المستقلون: يجب على الوكلاء وروبوتات الدردشة الاحتفاظ بذاكرة طويلة المدى لتفاعلات المستخدم. بدلاً من تمرير سجل المحادثة بالكامل في كل استعلام جديد، تقوم تقنيات الضغط بتلخيص أدوار الحوار الأقدم، مما يضمن بقاء الوكيل على دراية بالسياق دون تكبد تكاليف حسابية أسية.
Link to this sectionضغط المطالبة مقابل التقنيات ذات الصلة#
لبناء خطوط أنابيب قوية لـ عمليات تعلم الآلة (MLOps)، من المهم التمييز بين ضغط المطالبة والمفاهيم ذات الصلة:
- مقابل التخزين المؤقت للمطالبة: يقوم التخزين المؤقت بحفظ الحالات الحسابية الداخلية للنصوص التي تمت معالجتها مسبقاً لتجنب إعادة حسابها. في المقابل، يقوم الضغط بتغيير وتقصير نص الإدخال نفسه بفاعلية قبل حدوث أي معالجة.
- مقابل هندسة المطالبة: هندسة المطالبة هي حرفة يقودها الإنسان لتصميم تعليمات فعالة. أما الضغط فهو تقليل آلي وخوارزمي لتلك التعليمات.
- مقابل إثراء المطالبة: يقوم الإثراء بتوسيع المطالبة عن طريق إضافة سياق خارجي، بينما يقوم الضغط بتقليلها. وغالباً ما يتم استخدامهما معاً: فقد يقوم النظام بإثراء مطالبة بنتائج قاعدة بيانات ثم ضغط الحمولة النهائية قبل الاستدلال.
Link to this sectionالتنفيذ في الرؤية الحاسوبية#
في الرؤية الحاسوبية (CV)، تنطبق مبادئ ضغط المطالبة عند استخدام نماذج مفتوحة المفردات التي تقبل استعلامات نصية لتحديد الكائنات. الحفاظ على أوصاف الفئات موجزة يضمن تشفيراً نصياً أسرع ويقلل من عبء الذاكرة.
بالنسبة لبيئات الإنتاج ذات الفئات الثابتة حيث تعتبر السرعة أمراً بالغ الأهمية، ينتقل المطورون عادةً من النماذج التي تعتمد على المطالبة النصية إلى نماذج ذات بنية ثابتة ومحسنة للغاية مثل Ultralytics YOLO26. يمكنك إدارة مجموعات البيانات وتدريب هذه النماذج المتطورة بكفاءة باستخدام منصة Ultralytics.
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()





