اكتشف شبكات الكبسولة (CapsNets): بنية شبكة عصبية رائدة تتفوق في التسلسلات الهرمية المكانية وعلاقات الميزات.
شبكات الكبسولات، والتي غالبًا ما يتم اختصارها إلى CapsNets، هي نوع من بنية الشبكات العصبية (NN) المصممة للتغلب على بعض القيود الرئيسية لـ الشبكات العصبية الالتفافية (CNNs). تهدف CapsNets، التي قدمها Geoffrey Hinton وفريقه، إلى التعرف بشكل أفضل على العلاقات الهرمية بين الميزات في الصورة. على عكس الخلايا العصبية في شبكة CNN القياسية التي تنتج قيمة قياسية واحدة، فإن "الكبسولات" في CapsNet تنتج متجهًا، مما يسمح لها بترميز معلومات أكثر تفصيلاً حول خصائص الكائن، مثل وضعه (الموضع والحجم والاتجاه) والتشوه والملمس. هذا الهيكل يجعلها أكثر قوة بطبيعتها للتغيرات في وجهة النظر والاتجاه.
يكمن الابتكار الأساسي وراء شبكات CapsNets في قدرتها على الحفاظ على التسلسلات الهرمية المكانية بين الميزات. في حين أن شبكة CNN قد تتعرف على مكونات الوجه - مثل الفم والأنف والعينين - إلا أنها لا تفهم صراحةً علاقاتها المكانية. ومع ذلك، تستخدم شبكات CapsNets مجموعات من الخلايا العصبية تسمى الكبسولات لتحديد هذه الأجزاء واتجاهاتها النسبية. ويتحقق ذلك من خلال عملية تسمى "التوجيه الديناميكي"، حيث ترسل الكبسولات ذات المستوى الأدنى مخرجاتها إلى الكبسولات ذات المستوى الأعلى التي يمكنها تفسير نتائجها على أفضل وجه. يختلف هذا النهج اختلافًا جوهريًا عن طبقات التجميع في شبكات CNN، والتي غالبًا ما تتجاهل المعلومات المكانية المهمة. تم تفصيل المفهوم الأصلي في ورقة التوجيه الديناميكي بين الكبسولات.
يكمن التمييز الأساسي بين CapsNets و CNNs في كيفية تعاملهم مع المعلومات المكانية والتجريد.
في حين أن نماذج مثل Ultralytics YOLO مُحسَّنة للغاية لتحقيق السرعة والدقة في مهام الرؤية الحاسوبية (CV) العملية، إلا أن CapsNets تمثل فلسفة معمارية بديلة تركز على تحسين الفهم الأساسي للمشاهد المرئية. يمكنك استكشاف مقارنات بين نماذج اكتشاف الأجسام المختلفة لفهم المشهد الحالي.
على الرغم من أن CapsNets لا تزال في المقام الأول مجالًا للبحث النشط وأقل شيوعًا في النشر من النماذج الراسخة مثل YOLO11، إلا أنها أظهرت وعدًا في العديد من المجالات:
تشمل التطبيقات المحتملة الأخرى تحسين اكتشاف الكائنات، خاصةً للمشاهد المزدحمة، وتعزيز فهم المشهد في الروبوتات، والمساهمة في أنظمة إدراك أكثر قوة للمركبات ذاتية القيادة. في حين أن المتطلبات الحسابية لا تزال تمثل تحديًا، يهدف البحث المستمر إلى تحسين كفاءة CapsNet لتطبيقات التعلم الآلي (ML) الأوسع والتكامل المحتمل في أطر عمل مثل PyTorch أو TensorFlow.