Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التجميع المستمر

تعرف على كيفية تحسين GPU المستمرة GPU وتقليل زمن الاستجابة. اكتشف كيفية استخدام Ultralytics لتعظيم الكفاءة في مهام التعلم الآلي للإنتاج.

التجميع المستمر هو تقنية متقدمة لتحسين الجدولة والاستدلال تستخدم في التعلم الآلي (ML) لتعظيم استخدام الأجهزة والإنتاجية. في التجميع الثابت التقليدي، ينتظر محرك الاستدلال عددًا محددًا مسبقًا من الطلبات لتتراكم قبل معالجتها في وقت واحد. وغالبًا ما يؤدي ذلك إلى عدم الكفاءة لأن النظام يجب أن ينتظر انتهاء الطلب الأطول في الدفعة قبل تحرير الموارد. التجميع المستمر، المعروف أيضًا بالتجميع الديناميكي أو التجميع على مستوى التكرار، يحل هذه المشكلة عن طريق إدخال طلبات جديدة في دفعة الحوسبة بمجرد اكتمل طلب نشط، مما يقلل بشكل كبير من وقت الخمول على وحدات معالجة الرسومات (GPU) ويحسن الكفاءة الإجمالية.

التمييز بين المفاهيم ذات الصلة

لفهم كيفية معالجة البيانات أثناء نشر النموذج بشكل أفضل، من المفيد التمييز بين التجميع المستمر والمصطلحات الأخرى ذات الصلة في المسرد:

  • حجم الدفعة: يشير هذا إلى العدد الثابت للعينات التي تتم معالجتها في وقت واحد أثناء التدريب أو الاستدلال. تعتمد سير عمل معالجة الدُفعات التقليدية على أحجام ثابتة، في حين أن المعالجة المستمرة للدُفعات تسمح بتقلب حجم الدُفعة الفعال ديناميكيًا بناءً على حجم حركة المرور الواردة.
  • الاستدلال في الوقت الحقيقي: يركز هذا المفهوم على تقليل زمن استدلال التنبؤات الفورية إلى أدنى حد، ومعالجة المدخلات الفردية فور وصولها. يعمل التجميع المستمر على سد الفجوة بين التجميع الثابت عالي الإنتاجية والاستدلال في الوقت الحقيقي منخفض زمن الاستجابة من خلال الحفاظ على إنتاجية عالية دون إجبار الطلبات السريعة على انتظار الطلبات الأبطأ .

تطبيقات واقعية

يعد التجميع المستمر أمرًا بالغ الأهمية لأنظمة الإنتاج التي تتعامل مع أحجام كبيرة من الطلبات غير المتوقعة. فيما يلي مثالان ملموسان على تطبيقه:

  1. إنشاء نصوص عالية الإنتاجية: عند تقديم نماذج اللغة الكبيرة (LLMs)، يستغرق إنشاء الردود لمختلف المستخدمين وقتًا متفاوتًا اعتمادًا على طول المخرجات. يمكن للأطر التي تستفيد من التجميع المستمر — مثل vLLM على Ray Serve— أن تقوم باستمرار ببث الرموز التي تم إنشاؤها حديثًا واستبدال المحادثات المنتهية على الفور بمطالبات جديدة. هذه الطريقة، التي شاعت في الأصل من خلال الأبحاث حول الجدولة على مستوى التكرار، تحسن بشكل كبير إنتاجية إنشاء النصوص.
  2. تحليلات الفيديو غير المتزامنة: في مهام فهم الفيديو ، مثل تتبع المركبات عبر شبكة كاميرات المرور في المدينة، تصل الإطارات على فترات زمنية مختلفة. تسمح المعالجة المستمرة لنماذج تتبع الكائنات بمعالجة إطارات الفيديو الواردة ديناميكيًا في غضون أجزاء من الثانية التي تتوفر فيها الموارد، مما يؤدي إلى تحسين تسريع الأجهزة للوحات معلومات المدن الذكية.

المعالجة المستمرة في مهام الرؤية

عند إدارة ممارسات نشر النماذج ذات حركة المرور العالية، يمكن أن يؤدي بث الاستدلالات بشكل متكرر إلى محاكاة مزايا التجميع الديناميكي من خلال ضمان تحرير الذاكرة تدريجياً بدلاً من حجبها. يوضح Python التالي Python كيفية استخدام نمط المولد مع واجهة برمجة تطبيقات التنبؤ بالنموذج للتعامل مع تدفق مستمر للصور بكفاءة.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Using stream=True acts as a generator, iteratively processing inputs
# to keep memory usage low and throughput high
results = model.predict(source=["img1.jpg", "img2.jpg", "img3.jpg"], stream=True)

# Process each result as soon as it completes
for result in results:
    print(f"Detected {len(result.boxes)} objects in this frame.")

تتطلب إدارة جدولة الموارد على مستوى النظام تحقيق التوازن بين السرعة الخام والتكلفة التشغيلية. تعتمد الفرق التي تنشر نماذج الرؤية الحاسوبية (CV) واللغة بشكل متزايد على أطر عمل متقدمة لإدارة هذه الدفعات الديناميكية. بالنسبة للفرق المؤسسية التي تسعى إلى تبسيط بنيتها التحتية، توفر Ultralytics أدوات قوية لتدريب النماذج ومراقبتها وتصديرها إلى بيئات إنتاج محسّنة للغاية.

عزز قوتك مع Ultralytics YOLO

احصل على رؤية الذكاء الاصطناعي المتقدمة لمشاريعك. ابحث عن الترخيص المناسب لأهدافك اليوم.

اكتشف خيارات الترخيص