العمود الفقري
اكتشف دور الهياكل الأساسية في التعلم العميق، واستكشف أفضل التصميمات مثل ResNet وViT، وتعرّف على تطبيقاتها الواقعية في الذكاء الاصطناعي.
العمود الفقري (backbone) هو مكون أساسي في نموذج التعلم العميق، وخاصة في رؤية الحاسوب (CV). وهو بمثابة الشبكة الأساسية لاستخراج الميزات. وتتمثل مهمته الرئيسية في أخذ بيانات الإدخال الأولية، مثل الصورة، وتحويلها إلى مجموعة من الميزات عالية المستوى، أو خرائط الميزات، التي يمكن استخدامها في مهام لاحقة مثل الكشف عن الكائنات، أو تقسيم الصور، أو التصنيف. يمكنك اعتبار العمود الفقري هو الجزء من الشبكة العصبية (NN) الذي يتعلم "رؤية" وفهم الأنماط الأساسية - مثل الحواف والتركيبات والأشكال والكائنات - داخل الصورة.
كيف تعمل الهياكل الأساسية (Backbones)؟
عادةً ما يكون العمود الفقري عبارة عن شبكة عصبية التفافية (CNN) عميقة تم تدريبها مسبقًا على مجموعة بيانات تصنيف صور واسعة النطاق، مثل ImageNet. تعلم عملية التدريب المسبق هذه، وهي شكل من أشكال التعلم بالنقل، الشبكة على التعرف على مكتبة واسعة من الميزات المرئية العامة. عند إنشاء نموذج لمهمة جديدة، غالبًا ما يستخدم المطورون هذه الأعمدة الفقرية المدربة مسبقًا بدلاً من البدء من الصفر. يقلل هذا النهج بشكل كبير من وقت التدريب وكمية البيانات المصنفة المطلوبة، مع تحسين أداء النموذج في كثير من الأحيان. يتم بعد ذلك تمرير الميزات التي استخرجها العمود الفقري إلى "عنق" و"رأس" الشبكة، والتي تجري مزيدًا من المعالجة وتولد الإخراج النهائي. غالبًا ما يتضمن اختيار العمود الفقري مفاضلة بين الدقة وحجم النموذج وزمن انتقال الاستدلال، وهو أمر بالغ الأهمية لتحقيق أداء في الوقت الفعلي.
البنى الأساسية الشائعة
تطور تصميم الهياكل الأساسية على مر السنين، حيث يقدم كل تصميم جديد تحسينات في الكفاءة والأداء. تتضمن بعض الهياكل الأساسية الأكثر تأثيرًا ما يلي:
- الشبكات المتبقية (ResNet): تستخدم نماذج ResNet، التي قدمتها Microsoft Research، "اتصالات التخطي" للسماح للشبكة بتعلم الوظائف المتبقية. وقد أتاح هذا الابتكار إمكانية تدريب شبكات أعمق بكثير دون المعاناة من مشكلة تلاشي التدرج.
- EfficientNet: طورت Google AI هذه العائلة من النماذج تستخدم طريقة توسيع مركبة لتحقيق التوازن بشكل موحد بين عمق الشبكة وعرضها ودقتها. ينتج عن ذلك نماذج دقيقة للغاية وفعالة من الناحية الحسابية.
- محول الرؤية (ViT): من خلال تكييف بنية المحول الناجحة من البرمجة اللغوية العصبية اللغوية إلى الرؤية، تتعامل محولات الرؤية الافتراضية مع الصورة كسلسلة من الرقع وتستخدم الانتباه الذاتي لالتقاط السياق العالمي، مما يوفر نهجًا مختلفًا مقارنةً بمجالات الاستقبال المحلية لشبكات الشبكات الشبكية ذاتية التحكم.
- CSPNet (شبكة جزئية عبر المراحل): هذا الهيكل، الموصوف في ورقته الأصلية، يحسن التعلم عن طريق دمج خرائط الميزات من بداية ونهاية مرحلة الشبكة، مما يعزز انتشار التدرج ويقلل من الاختناقات الحسابية. إنه مكون رئيسي في العديد من نماذج Ultralytics YOLO.
العمود الفقري مقابل الرأس والرقبة
في بنية اكتشاف الكائنات النموذجية، يتكون النموذج من ثلاثة أجزاء رئيسية:
- العمود الفقري: دوره هو إجراء استخراج الميزات من الصورة المدخلة، وإنشاء خرائط الميزات بمقاييس مختلفة.
- الرقبة (Neck): يقع هذا المكون بين العمود الفقري والرأس. يقوم بتحسين وتجميع خرائط الميزات من العمود الفقري، وغالبًا ما يجمع بين الميزات من طبقات مختلفة لبناء تمثيل أكثر ثراءً. مثال شائع هو شبكة هرم الميزات (FPN).
- رئيس الكشف: هذا هو الجزء الأخير من الشبكة، والذي يأخذ الميزات المكررة من الرقبة ويقوم بمهمة الكشف الفعلي. وهو يتنبأ بالمربعات المحددة وتسميات الفئات ودرجات الثقة للأجسام في الصورة.
وبالتالي، فإن العمود الفقري هو الأساس الذي يتم بناء بقية نموذج الاكتشاف عليه. تدمج نماذج مثل YOLOv8 وYOLO11 أعمدة فقرية قوية لضمان استخراج ميزات عالية الجودة، وهو أمر ضروري لأدائها المتطور عبر مختلف المهام. يمكنك استكشاف مقارنات نماذج YOLO مختلفة لمعرفة كيف تؤثر الخيارات المعمارية على الأداء.
تطبيقات واقعية
تعتبر الأعمدة الفقرية مكونات أساسية في عدد لا يحصى من تطبيقات الذكاء الاصطناعي:
- القيادة الذاتية: تعتمد الأنظمة في السيارات ذاتية القيادة اعتماداً كبيراً على العمود الفقري القوي (على سبيل المثال، متغيرات ResNet أو EfficientNet) لمعالجة المدخلات من الكاميرات ومستشعرات LiDAR. تمكّن الميزات المستخرجة من اكتشاف وتصنيف المركبات والمشاة وإشارات المرور وخطوط المسارات، وهو أمر بالغ الأهمية للملاحة الآمنة واتخاذ القرارات، كما رأينا في الأنظمة التي طورتها شركات مثل Waymo.
- تحليل الصور الطبية: في حلول الذكاء الاصطناعي في مجال الرعاية الصحية، تُستخدم العمود الفقري لتحليل الفحوصات الطبية مثل الأشعة السينية أو الأشعة المقطعية أو التصوير بالرنين المغناطيسي. على سبيل المثال، قد يستخرج العمود الفقري مثل DenseNet ميزات من الأشعة السينية للصدر للمساعدة في الكشف عن علامات الالتهاب الرئوي أو من الأشعة المقطعية لتحديد الأورام المحتملة(الأبحاث ذات الصلة في طب الأشعة: الذكاء الاصطناعي). وهذا يساعد أخصائيي الأشعة في التشخيص وتخطيط العلاج. يمكن تكييف نماذج التحليلات فوق الصوتية مثل YOLO11 لمهام مثل الكشف عن الأورام من خلال الاستفادة من العمود الفقري القوي.
يمكنك تبسيط عملية استخدام الهياكل الأساسية القوية لمشاريعك الخاصة باستخدام منصات مثل Ultralytics HUB، والتي تسهل إدارة مجموعات البيانات و تدريب النماذج المخصصة.