اكتشف شبكات الكبسولة (CapsNets): بنية رائدة للشبكات العصبية تتفوق في التسلسلات الهرمية المكانية وعلاقات السمات.
تمثل شبكات الكبسولة، التي غالباً ما يُطلق عليها اختصاراً CapsNets، نوعاً مبتكراً من بنية الشبكات العصبية (NN) المصممة كبديل للشبكات العصبية التلافيفية التقليدية (CNNs). تهدف شبكات CapsNets، التي قدمها لأول مرة الباحث في مجال الذكاء الاصطناعي جيفري هينتون وفريقه، إلى معالجة القيود الأساسية في كيفية معالجة الشبكات العصبية التسلسلات الهرمية المكانية والعلاقات بين السمات داخل الصورة. في حين تتفوق شبكات CNN في استخراج الميزات، فإن استخدامها لطبقات التجميع يمكن أن يؤدي إلى فقدان المعلومات المكانية الدقيقة. تقترح شبكات CapsNets نهجًا مختلفًا باستخدام "كبسولات"، وهي مجموعات من الخلايا العصبية التي تُخرج متجهات بدلاً من القيم القياسية المفردة. تقوم هذه المتجهات بتشفير معلومات أكثر ثراءً حول الميزات المكتشفة، بما في ذلك خصائص مثل الوضعية (الموضع والاتجاه والمقياس) واحتمالية وجود الميزة. تُمكِّن هذه البنية شبكات CapsNets من نمذجة العلاقات بين الأجزاء والجزئيات بشكل أفضل والحفاظ على الوعي المكاني، مما يؤدي إلى تحسين المتانة ضد تغيرات وجهة النظر في مهام الرؤية الحاسوبية.
العنصر المركزي في شبكة CapsNet هو "الكبسولة". وخلافاً للخلايا العصبية القياسية، تكتشف كل كبسولة كياناً محدداً داخل منطقة من المدخلات وتخرج متجهاً. يشير مقدار المتجه (الطول) إلى احتمال وجود الكيان المكتشف، بينما يمثل اتجاهه معلمات إنشاء الكيان، مثل وضعه الدقيق أو تفاصيل نسيجه. يتناقض هذا الناتج القائم على المتجه بشكل حاد مع التفعيل القياسي النموذجي في العديد من نماذج التعلم العميق الأخرى.
تنشئ الكبسولات في الطبقات الدنيا تنبؤات لمخرجات الكبسولات في الطبقات العليا باستخدام مصفوفات التحويل. وهناك آلية حاسمة تُعرف باسم "التوجيه بالاتفاق" تحدد ديناميكيًا الروابط بين هذه الطبقات. إذا كانت التنبؤات من كبسولات متعددة من المستوى الأدنى متوافقة (تتفق) فيما يتعلق بوجود ووضعية ميزة المستوى الأعلى، تصبح الكبسولة المقابلة من المستوى الأعلى نشطة. وتسمح عملية التوجيه الديناميكي هذه للشبكة بالتعرف على الأجزاء وفهم كيفية تجميعها في كل، مما يحافظ بشكل فعال على التسلسلات الهرمية المكانية. تم تفصيل الأفكار الأساسية في الورقة البحثية"التوجيه الديناميكي بين الكبسولات". ويساعد هذا النهج في المهام التي تتطلب فهماً دقيقاً لتكوين الأجزاء، مما قد يحسن الأداء مع تقليل الحاجة إلى زيادة البيانات بشكل كبير.
تقدم شبكات CapsNets نموذجًا مختلفًا مقارنةً بشبكات CNN المستخدمة على نطاق واسع، خاصةً في التعامل مع البيانات المكانية وتمثيل الميزات:
تقدم شبكات CapsNets العديد من المزايا المحتملة مقارنةً ببنى الشبكات العصبية التقليدية:
على الرغم من أن شبكات CapsNets لا تزال في المقام الأول مجالاً للبحث النشط وأقل شيوعًا من النماذج القائمة مثل Ultralytics YOLO أو YOLO11إلا أنها أثبتت أنها واعدة في عدة مجالات:
وتشمل التطبيقات المحتملة الأخرى تحسين اكتشاف الأجسام، لا سيما في المشاهد المشوشة، وتعزيز فهم المشهد في الروبوتات، والمساهمة في أنظمة إدراك أكثر قوة للمركبات ذاتية القيادة. بينما لا تزال المتطلبات الحسابية تمثل تحديًا، تهدف الأبحاث الجارية إلى تحسين كفاءة CapsNet لتطبيقات التعلم الآلي الأوسع نطاقًا والتكامل المحتمل في أطر عمل مثل PyTorch أو TensorFlow. يمكنك استكشاف المقارنات بين نماذج مختلفة للكشف عن الكائنات لفهم المكان الذي يمكن أن تتناسب فيه CapsNet في المشهد المستقبلي.