Pipeline Parallelism

اكتشف كيف يقوم التوازي في خط الأنابيب (pipeline parallelism) بتقسيم نماذج التعلم العميق عبر وحدات معالجة الرسومات (GPUs). تعلم كيفية منع أخطاء نفاد الذاكرة وتحسين التدريب الموزع.

توازي خطوط المعالجة (Pipeline Parallelism) هو تقنية متقدمة في التدريب الموزع مصممة لتقسيم الشبكات العصبية (NN) الكبيرة عبر أجهزة حوسبة متعددة، مثل GPUs، عن طريق فصل النموذج حسب العمق. عندما تتجاوز أوزان النموذج وحالات المُحسِّن (optimizer states) في البنيات الحديثة حدود الذاكرة الخاصة بمسرع واحد، يقوم المهندسون بتقسيم الطبقات المتسلسلة للشبكة إلى "مراحل" (stages). على سبيل المثال، قد تستقر الطبقات العشر الأولى على GPU 0، بينما تستقر الطبقات العشر التالية على GPU 1. أثناء التمرير الأمامي (forward pass)، تتدفق البيانات من جهاز إلى آخر. من خلال ربط هذه الأجهزة معاً، يمكن للباحثين تدريب خوارزميات التعلم العميق (DL) الضخمة دون مواجهة أخطاء نفاد الذاكرة التي تحد من قدرات العتاد.

Link to this sectionكيف يعمل توازي خطوط المعالجة#

يؤدي التنفيذ البسيط لتقسيم الطبقات عبر الأجهزة إلى أوجه قصور حادة تُعرف باسم "فقاعات خط المعالجة" (pipeline bubbles). ولأن الطبقات تعالج بشكل تسلسلي، يظل GPU 1 خاملاً تماماً بينما يقوم GPU 0 بمعالجة الطبقات الأولية. لتعظيم كفاءة استخدام العتاد، تقوم مجدولات خطوط المعالجة الحديثة بتقسيم حجم الدفعة (batch size) العالمي إلى "دفعات صغيرة" (micro-batches).

بدلاً من انتظار انتهاء الدفعة بأكملها، يبدأ GPU 0 فوراً في معالجة الدفعة الصغيرة الثانية بمجرد تمرير الدفعة الصغيرة الأولى إلى GPU 1. تستخدم أدوات مثل Microsoft DeepSpeed و PyTorch Distributed Pipelining API بشكل شائع استراتيجية جدولة 1F1B (تمرير أمامي واحد، تمرير خلفي واحد). تقوم هذه الطريقة بتبديل عمليات التمرير الأمامي والخلفي لحساب الدفعات الصغيرة المختلفة بشكل متزامن، مما يقلل بشكل كبير من فقاعات خط المعالجة واستهلاك الذاكرة. حتى أن التطورات الأخيرة في عامي 2024 و 2025 قدمت توازي خطوط المعالجة عديم الفقاعات (Zero Bubble Pipeline Parallelism)، وهي استراتيجية تنبؤ بالأوزان واعية بالمُحسِّن تقضي تقريباً على وقت الخمول عبر مجموعات الحوسبة.

Link to this sectionالتمييز بين تقنيات التوازي ذات الصلة#

يعمل توازي خطوط المعالجة ضمن نظام بيئي أوسع من استراتيجيات الحوسبة الموزعة. فهم الاختلافات أمر بالغ الأهمية لتوسيع نطاق نماذج الذكاء الاصطناعي بفعالية:

توازي النموذج (Model Parallelism): هو المصطلح الشامل لتقسيم النموذج عبر الأجهزة. يعد توازي خطوط المعالجة شكلاً محدداً للغاية من توازي النموذج الذي يقوم بتقسيم البنية تسلسلياً حسب العمق.
توازي الموترات (Tensor Parallelism): على عكس تقسيمات توازي خطوط المعالجة حسب العمق، يقوم توازي الموترات بتجزئة عمليات المصفوفات الفردية أفقياً عبر وحدات GPU. غالباً ما يتم الجمع بين هاتين التقنيتين لتعظيم الإنتاجية.
توازي البيانات (Data Parallelism): يقوم توازي البيانات بنسخ النموذج بالكامل على كل GPU وتوزيع بيانات التدريب بينها. بالنسبة لبنيات اكتشاف الأجسام وتجزئة الصور المدمجة وعالية التحسين مثل نموذج Ultralytics YOLO26، الذي يتناسب طبيعياً مع ذاكرة VRAM الخاصة بجهاز واحد، يعد توازي البيانات عبر PyTorch DistributedDataParallel (DDP) هو الطريقة المفضلة لتسريع التدريب.

Link to this sectionتطبيقات العالم الحقيقي في الذكاء الاصطناعي وتعلم الآلة#

توسيع نطاق البنية التحتية المعقدة ضروري لبناء أنظمة ذكاء اصطناعي حديثة ومتطورة:

تدريب النماذج التأسيسية: يتطلب تطوير نماذج لغوية ضخمة (LLMs) ونماذج تأسيسية عملاقة مثل Llama 3 من Meta الجمع بين توازي الموترات، والبيانات، وخطوط المعالجة. تستفيد أطر عمل مثل NVIDIA Megatron-LM من هذه الاستراتيجيات لتدريب بنيات خليط الخبراء (MoE) الضخمة عبر آلاف وحدات GPU على منصات سحابية مثل AWS SageMaker.
التشخيص الطبي عالي الدقة: في الذكاء الاصطناعي في الرعاية الصحية والنمذجة العلمية، غالباً ما تنتج فحوصات الحجم ثلاثية الأبعاد تنشيطات ضخمة جداً بالنسبة لمسرع واحد. يسمح وضع طبقات الشبكة في خطوط معالجة عبر العقد للمستشفيات البحثية بتدريب شبكات عميقة على مجموعات بيانات MRI ضخمة دون المساس بدقة الصورة.

Link to this sectionمثال برمجِي: مفهوم تقسيم الطبقات#

تاريخياً، كان توزيع الطبقات عبر الأجهزة يتطلب كوداً مخصصاً ومعقداً. اليوم، تعتمد المنطق الأساسي على ربط طبقات محددة بمعرفات أجهزة مختلفة. فيما يلي تمثيل مفاهيمي لكيفية تقسيم مراحل الشبكة عبر الأجهزة في PyTorch، مما يضع الأساس لعمليات توازي خطوط المعالجة:

import torch.nn as nn


class SimplePipelineModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Stage 1 is assigned to the first GPU
        self.stage1 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:0")
        # Stage 2 is assigned to the second GPU
        self.stage2 = nn.Sequential(nn.Linear(1024, 1024), nn.ReLU()).to("cuda:1")

    def forward(self, x):
        # The forward pass seamlessly crosses device boundaries
        x_out = self.stage1(x.to("cuda:0"))
        return self.stage2(x_out.to("cuda:1"))

بينما يتطلب إنشاء النماذج التأسيسية تنسيقاً معقداً، فإن نشر مشاريع الرؤية الحاسوبية (CV) السريعة والقابلة للتوسع هو أمر أبسط بشكل عام. من أجل نشر النماذج المبسط والاستخدام التلقائي لعدة وحدات GPU، يثق المطورون في منصة Ultralytics لتوسيع نطاق أحمال العمل تلقائياً. من خلال الاستفادة من نصائح تدريب النماذج القوية، تجرد المنصة إدارة البنية التحتية، مما يسمح للمهندسين بالتركيز بالكامل على بناء حلول ذكاء اصطناعي دقيقة قادرة على الاستدلال في الوقت الفعلي.