استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

شبكات الكبسولة (CapsNet)

اكتشف شبكات الكبسولة (CapsNets): بنية شبكة عصبية رائدة تتفوق في التسلسلات الهرمية المكانية وعلاقات الميزات.

شبكات الكبسولات، والتي غالبًا ما يتم اختصارها إلى CapsNets، هي نوع من بنية الشبكات العصبية (NN) المصممة للتغلب على بعض القيود الرئيسية لـ الشبكات العصبية الالتفافية (CNNs). تهدف CapsNets، التي قدمها Geoffrey Hinton وفريقه، إلى التعرف بشكل أفضل على العلاقات الهرمية بين الميزات في الصورة. على عكس الخلايا العصبية في شبكة CNN القياسية التي تنتج قيمة قياسية واحدة، فإن "الكبسولات" في CapsNet تنتج متجهًا، مما يسمح لها بترميز معلومات أكثر تفصيلاً حول خصائص الكائن، مثل وضعه (الموضع والحجم والاتجاه) والتشوه والملمس. هذا الهيكل يجعلها أكثر قوة بطبيعتها للتغيرات في وجهة النظر والاتجاه.

كيف تعمل شبكات الكبسولة (Capsule Networks)؟

يكمن الابتكار الأساسي وراء شبكات CapsNets في قدرتها على الحفاظ على التسلسلات الهرمية المكانية بين الميزات. في حين أن شبكة CNN قد تتعرف على مكونات الوجه - مثل الفم والأنف والعينين - إلا أنها لا تفهم صراحةً علاقاتها المكانية. ومع ذلك، تستخدم شبكات CapsNets مجموعات من الخلايا العصبية تسمى الكبسولات لتحديد هذه الأجزاء واتجاهاتها النسبية. ويتحقق ذلك من خلال عملية تسمى "التوجيه الديناميكي"، حيث ترسل الكبسولات ذات المستوى الأدنى مخرجاتها إلى الكبسولات ذات المستوى الأعلى التي يمكنها تفسير نتائجها على أفضل وجه. يختلف هذا النهج اختلافًا جوهريًا عن طبقات التجميع في شبكات CNN، والتي غالبًا ما تتجاهل المعلومات المكانية المهمة. تم تفصيل المفهوم الأصلي في ورقة التوجيه الديناميكي بين الكبسولات.

شبكات الكبسولات مقابل الشبكات العصبية الالتفافية

يكمن التمييز الأساسي بين CapsNets و CNNs في كيفية تعاملهم مع المعلومات المكانية والتجريد.

  • الثبات المكاني (Spatial Invariance): تحقق الشبكات العصبية الالتفافية (CNNs) الثبات المكاني من خلال طبقات التجميع (pooling layers)، مما قد يؤدي إلى فقدان بيانات الموقع الدقيقة. على النقيض من ذلك، تم تصميم CapsNets لتكون "متغيرة بشكل مشترك" (equivariant)، مما يعني أنها تستطيع فهم معلومات وضع الكائن والحفاظ عليها أثناء تحركه عبر الإطار.
  • كفاءة البيانات: نظرًا لهيكلها الداخلي المتطور، يمكن لشبكات CapsNet غالبًا تحقيق دقة عالية مع كمية أقل بكثير من بيانات التدريب مقارنة بنماذج التعلم العميق (DL) المتعطشة للبيانات.
  • التمثيل الهرمي: تبني CapsNets شجرة تحليل صريحة للكيانات المرئية، مما يسمح لها بفهم الكل كتكوين لأجزائه. هذه طريقة أكثر سهولة لإجراء مهام مثل اكتشاف الكائنات مما تقدمه CNNs القياسية.

في حين أن نماذج مثل Ultralytics YOLO مُحسَّنة للغاية لتحقيق السرعة والدقة في مهام الرؤية الحاسوبية (CV) العملية، إلا أن CapsNets تمثل فلسفة معمارية بديلة تركز على تحسين الفهم الأساسي للمشاهد المرئية. يمكنك استكشاف مقارنات بين نماذج اكتشاف الأجسام المختلفة لفهم المشهد الحالي.

تطبيقات واقعية

على الرغم من أن CapsNets لا تزال في المقام الأول مجالًا للبحث النشط وأقل شيوعًا في النشر من النماذج الراسخة مثل YOLO11، إلا أنها أظهرت وعدًا في العديد من المجالات:

  1. التعرف على الأحرف: حققت CapsNets نتائج متطورة على مجموعة بيانات MNIST للأرقام المكتوبة بخط اليد، مما يدل على قدرتها على التعامل مع الاختلافات في الاتجاه والأسلوب بفعالية، متجاوزة أساليب تصنيف الصور التقليدية في بعض المعايير.
  2. تحليل الصور الطبية: قوتها في فهم التكوينات المكانية تجعلها مناسبة لتحليل الفحوصات الطبية. على سبيل المثال، استكشفت الأبحاث استخدام CapsNets لمهام مثل تجزئة ورم الدماغ، حيث يكون تحديد الشكل والموقع الدقيقين للشذوذات أمرًا بالغ الأهمية. يندرج هذا تحت المجال الأوسع لـ تحليل الصور الطبية.

تشمل التطبيقات المحتملة الأخرى تحسين اكتشاف الكائنات، خاصةً للمشاهد المزدحمة، وتعزيز فهم المشهد في الروبوتات، والمساهمة في أنظمة إدراك أكثر قوة للمركبات ذاتية القيادة. في حين أن المتطلبات الحسابية لا تزال تمثل تحديًا، يهدف البحث المستمر إلى تحسين كفاءة CapsNet لتطبيقات التعلم الآلي (ML) الأوسع والتكامل المحتمل في أطر عمل مثل PyTorch أو TensorFlow.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة