Continuous Batching
تعرف على كيفية تحسين التجميع المستمر لإنتاجية GPU وتقليل زمن الوصول. اكتشف كيفية استخدام Ultralytics YOLO26 لتعظيم الكفاءة في مهام تعلم الآلة في بيئات الإنتاج.
التجميع المستمر هو تقنية متقدمة لجدولة وتحسين الاستدلال تُستخدم في تعلم الآلة (ML) لتعظيم استخدام الأجهزة والإنتاجية. في التجميع الثابت التقليدي، ينتظر محرك الاستدلال تراكم عدد محدد مسبقاً من الطلبات قبل معالجتها في وقت واحد. غالباً ما يؤدي هذا إلى عدم الكفاءة لأن النظام يجب أن ينتظر انتهاء أطول طلب في المجموعة قبل تحرير الموارد. يحل التجميع المستمر، المعروف أيضاً باسم التجميع الديناميكي أو على مستوى التكرار، هذه المشكلة عن طريق حقن طلبات جديدة في مجموعة الحوسبة بمجرد اكتمال الطلب النشط، مما يقلل بشكل كبير من وقت الخمول على GPUs ويحسن الكفاءة الكلية.
Link to this sectionتمييز المفاهيم ذات الصلة#
لفهم كيفية معالجة البيانات أثناء نشر النموذج بشكل أفضل، من المفيد التمييز بين التجميع المستمر والمصطلحات الأخرى ذات الصلة في المسرد:
- حجم الدفعة: يشير هذا إلى عدد العينات الثابت التي تتم معالجتها في وقت واحد أثناء التدريب أو الاستدلال. تعتمد سير عمل معالجة الدفعات التقليدية على أحجام ثابتة، بينما يسمح التجميع المستمر لحجم الدفعة الفعلي بالتقلب ديناميكياً بناءً على حركة المرور الواردة.
- الاستدلال في الوقت الفعلي: يركز هذا المفهوم على تقليل زمن وصول الاستدلال للحصول على تنبؤات فورية، من خلال معالجة المدخلات الفردية فور وصولها. يسد التجميع المستمر الفجوة بين التجميع الثابت عالي الإنتاجية والاستدلال في الوقت الفعلي منخفض زمن الوصول من خلال الحفاظ على إنتاجية عالية دون إجبار الطلبات السريعة على انتظار الطلبات الأبطأ.
Link to this sectionالتطبيقات الواقعية#
يعد التجميع المستمر أمراً بالغ الأهمية لأنظمة الإنتاج التي تتعامل مع كميات كبيرة من الطلبات غير المتوقعة. فيما يلي مثالان ملموسان على تطبيقه:
-
توليد النصوص عالي الإنتاجية: عند تقديم نماذج اللغة الكبيرة (LLMs)، يستغرق توليد الردود لمستخدمين مختلفين أوقاتاً متفاوتة اعتماداً على طول المخرج. يمكن لأطر العمل التي تستفيد من التجميع المستمر - مثل vLLM على Ray Serve - بث الرموز المولدة حديثاً باستمرار واستبدال المحادثات المنتهية بمدخلات جديدة على الفور. هذه الطريقة، التي شاع استخدامها في الأصل من خلال الأبحاث حول الجدولة على مستوى التكرار، تحسن بشكل كبير من إنتاجية توليد النصوص.
-
تحليلات الفيديو غير المتزامنة: في مهام فهم الفيديو، مثل تتبع المركبات عبر شبكة كاميرات المرور في المدينة، تصل الإطارات في فترات زمنية مختلفة. يسمح التجميع المستمر لنماذج تتبع الأشياء بمعالجة إطارات الفيديو الواردة ديناميكياً في اللحظة التي تتوفر فيها الموارد، مما يعمل على تحسين خطوط أنابيب تسريع الأجهزة للوحات معلومات المدن الذكية.
Link to this sectionالمعالجة المستمرة في مهام الرؤية#
عند إدارة ممارسات نشر النماذج ذات الكثافة المرورية العالية، يمكن أن تحاكي استدلالات البث التكراري فوائد التجميع الديناميكي من خلال ضمان تحرير الذاكرة بشكل تدريجي بدلاً من حظرها. يوضح مثال Python التالي كيفية استخدام نمط المولد مع واجهة برمجة تطبيقات توقع النموذج للتعامل مع تدفق مستمر من الصور بكفاءة.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Using stream=True acts as a generator, iteratively processing inputs
# to keep memory usage low and throughput high
results = model.predict(source=["img1.jpg", "img2.jpg", "img3.jpg"], stream=True)
# Process each result as soon as it completes
for result in results:
print(f"Detected {len(result.boxes)} objects in this frame.")تتطلب إدارة جدولة الموارد على مستوى النظام توازناً بين السرعة الخام والتكلفة التشغيلية. تعتمد الفرق التي تنشر نماذج رؤية حاسوبية (CV) ولغة ضخمة بشكل متزايد على أطر عمل تقديم متقدمة لإدارة هذه المجموعات الديناميكية. بالنسبة لفرق المؤسسات التي تتطلع إلى تبسيط بنيتها التحتية، توفر منصة Ultralytics أدوات قوية للتدريب والمراقبة وتصدير النماذج إلى بيئات إنتاج محسنة للغاية.






