مسرد المصطلحات

شبكات الكبسولة (CapsNet)

اكتشف شبكات الكبسولة (CapsNets): بنية رائدة للشبكات العصبية تتفوق في التسلسلات الهرمية المكانية وعلاقات السمات.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثل شبكات الكبسولة، التي غالباً ما يُطلق عليها اختصاراً CapsNets، نوعاً مبتكراً من بنية الشبكات العصبية (NN) المصممة كبديل للشبكات العصبية التلافيفية التقليدية (CNNs). تهدف شبكات CapsNets، التي قدمها لأول مرة الباحث في مجال الذكاء الاصطناعي جيفري هينتون وفريقه، إلى معالجة القيود الأساسية في كيفية معالجة الشبكات العصبية التسلسلات الهرمية المكانية والعلاقات بين السمات داخل الصورة. في حين تتفوق شبكات CNN في استخراج الميزات، فإن استخدامها لطبقات التجميع يمكن أن يؤدي إلى فقدان المعلومات المكانية الدقيقة. تقترح شبكات CapsNets نهجًا مختلفًا باستخدام "كبسولات"، وهي مجموعات من الخلايا العصبية التي تُخرج متجهات بدلاً من القيم القياسية المفردة. تقوم هذه المتجهات بتشفير معلومات أكثر ثراءً حول الميزات المكتشفة، بما في ذلك خصائص مثل الوضعية (الموضع والاتجاه والمقياس) واحتمالية وجود الميزة. تُمكِّن هذه البنية شبكات CapsNets من نمذجة العلاقات بين الأجزاء والجزئيات بشكل أفضل والحفاظ على الوعي المكاني، مما يؤدي إلى تحسين المتانة ضد تغيرات وجهة النظر في مهام الرؤية الحاسوبية.

المفاهيم الأساسية

العنصر المركزي في شبكة CapsNet هو "الكبسولة". وخلافاً للخلايا العصبية القياسية، تكتشف كل كبسولة كياناً محدداً داخل منطقة من المدخلات وتخرج متجهاً. يشير مقدار المتجه (الطول) إلى احتمال وجود الكيان المكتشف، بينما يمثل اتجاهه معلمات إنشاء الكيان، مثل وضعه الدقيق أو تفاصيل نسيجه. يتناقض هذا الناتج القائم على المتجه بشكل حاد مع التفعيل القياسي النموذجي في العديد من نماذج التعلم العميق الأخرى.

تنشئ الكبسولات في الطبقات الدنيا تنبؤات لمخرجات الكبسولات في الطبقات العليا باستخدام مصفوفات التحويل. وهناك آلية حاسمة تُعرف باسم "التوجيه بالاتفاق" تحدد ديناميكيًا الروابط بين هذه الطبقات. إذا كانت التنبؤات من كبسولات متعددة من المستوى الأدنى متوافقة (تتفق) فيما يتعلق بوجود ووضعية ميزة المستوى الأعلى، تصبح الكبسولة المقابلة من المستوى الأعلى نشطة. وتسمح عملية التوجيه الديناميكي هذه للشبكة بالتعرف على الأجزاء وفهم كيفية تجميعها في كل، مما يحافظ بشكل فعال على التسلسلات الهرمية المكانية. تم تفصيل الأفكار الأساسية في الورقة البحثية"التوجيه الديناميكي بين الكبسولات". ويساعد هذا النهج في المهام التي تتطلب فهماً دقيقاً لتكوين الأجزاء، مما قد يحسن الأداء مع تقليل الحاجة إلى زيادة البيانات بشكل كبير.

الاختلافات الرئيسية عن الشبكات العصبية التلافيفية (CNNs)

تقدم شبكات CapsNets نموذجًا مختلفًا مقارنةً بشبكات CNN المستخدمة على نطاق واسع، خاصةً في التعامل مع البيانات المكانية وتمثيل الميزات:

  • معالجة التسلسل الهرمي المكاني: غالبًا ما تفقد شبكات CNN المعلومات المكانية من خلال تجميع الطبقات التي تلخص وجود الميزات على المناطق. تم تصميم شبكات CapsNets للحفاظ صراحةً على علاقات الوضعية الهرمية بين الميزات، مما يجعلها بطبيعتها أفضل في فهم بنية الكائنات.
  • تمثيل الميزة: عادةً ما تستخدم شبكات الشبكات الشبكية ذات المحاكاة الشبكية (CNNs) تنشيطات قياسية لتمثيل وجود ميزة ما. تستخدم شبكات CapsNets مخرجات المتجهات (كبسولات) التي ترمز كلاً من وجود الميزة وخصائصها (مثل الوضع والتشوه).
  • التباين في وجهة النظر: تهدف شبكات CapsNets إلى تحقيق التباين المتساوي، مما يعني أن التمثيل يتغير بشكل متوقع مع تغيرات وجهة النظر، في حين أن شبكات CNN غالبًا ما تتطلب كميات كبيرة من بيانات التدريب لتعلم عدم التباين في وجهة النظر.
  • آلية التوجيه: تستخدم الشبكات الشبكية الشبكية التجميع الأقصى أو طرق تجميع ثابتة أخرى. تستخدم شبكات CapsNets توجيهاً ديناميكياً بالاتفاق، والتي ترجح الاتصالات بناءً على اتساق التنبؤات بين طبقات الكبسولة.

مزايا شبكات الكبسولة

تقدم شبكات CapsNets العديد من المزايا المحتملة مقارنةً ببنى الشبكات العصبية التقليدية:

  • تحسين متانة وجهات النظر: يسمح هيكلها بتعميمها بشكل أفضل على وجهات النظر الجديدة دون الحاجة إلى رؤية تلك المشاهدات المحددة أثناء التدريب.
  • نمذجة أفضل للعلاقة بين الجزء والكل: تساعد آلية التوجيه CapsNets على فهم كيفية اندماج الأجزاء لتكوين كائنات، وهو أمر بالغ الأهمية لمهام التعرف على الصور المعقدة.
  • كفاءة البيانات: قد تحقق دقة عالية مع مجموعات البيانات الأصغر مقارنةً بمجموعات البيانات الأصغر مقارنةً بشبكات CNN، خاصةً بالنسبة للمهام الحساسة للعلاقات المكانية.
  • تجزئة الكائنات المتداخلة: يمكن أن تساعد القدرة على تمثيل كيانات متعددة وأوضاعها داخل منطقة ما في مهام مثل تجزئة المثيل حيث تتداخل الكائنات بشكل كبير. يمكن إدارة التدريب والنشر باستخدام منصات مثل Ultralytics HUB.

التطبيقات الواقعية

على الرغم من أن شبكات CapsNets لا تزال في المقام الأول مجالاً للبحث النشط وأقل شيوعًا من النماذج القائمة مثل Ultralytics YOLO أو YOLO11إلا أنها أثبتت أنها واعدة في عدة مجالات:

  1. التعرّف على الحروف: حقّقت CapsNets أحدث النتائج على مجموعة بيانات MNIST للأرقام المكتوبة بخط اليد، مما أظهر قدرتها على التعامل مع الاختلافات في الاتجاه والأسلوب بفعالية، متجاوزةً بذلك مناهج تصنيف الصور التقليدية في بعض المعايير.
  2. تحليل الصور الطبية: إن قوتها في فهم التكوينات المكانية تجعلها مناسبة لتحليل عمليات المسح الطبي. على سبيل المثال، استكشفت الأبحاث استخدام شبكات CapsNets في مهام مثل تجزئة أورام الدماغ، حيث يكون تحديد الشكل والموقع الدقيق للشذوذات أمرًا بالغ الأهمية. وهذا يندرج تحت المجال الأوسع لتحليل الصور الطبية.

وتشمل التطبيقات المحتملة الأخرى تحسين اكتشاف الأجسام، لا سيما في المشاهد المشوشة، وتعزيز فهم المشهد في الروبوتات، والمساهمة في أنظمة إدراك أكثر قوة للمركبات ذاتية القيادة. بينما لا تزال المتطلبات الحسابية تمثل تحديًا، تهدف الأبحاث الجارية إلى تحسين كفاءة CapsNet لتطبيقات التعلم الآلي الأوسع نطاقًا والتكامل المحتمل في أطر عمل مثل PyTorch أو TensorFlow. يمكنك استكشاف المقارنات بين نماذج مختلفة للكشف عن الكائنات لفهم المكان الذي يمكن أن تتناسب فيه CapsNet في المشهد المستقبلي.

قراءة الكل