مسرد المصطلحات

شبكات الكبسولة (CapsNet)

اكتشف شبكات الكبسولة (CapsNets): بنية رائدة للشبكات العصبية تتفوق في التسلسلات الهرمية المكانية وعلاقات السمات.

شبكات الكبسولات، والتي غالبًا ما تُعرف اختصارًا باسم CapsNets، هي نوع من بنية الشبكات العصبية (NN) المصممة للتغلب على بعض القيود الرئيسية للشبكات العصبية التلافيفية (CNNs). تهدف شبكات CapsNets، التي قدمها جيفري هينتون وفريقه، إلى التعرف بشكل أفضل على العلاقات الهرمية بين السمات في الصورة. وخلافًا للخلايا العصبية في الشبكات العصبية القياسية التي تُخرج قيمة قياسية واحدة، فإن "الكبسولات" في الشبكات العصبية الكبسولية تُخرج متجهًا، مما يسمح لها بتشفير معلومات أكثر تفصيلاً عن خصائص الجسم، مثل وضعه (الموضع والحجم والاتجاه) والتشوه والملمس. هذه البنية تجعلها بطبيعتها أكثر قوة في مواجهة التغيرات في وجهة النظر والاتجاه.

كيف تعمل شبكات الكبسولة؟

يتمثل الابتكار الأساسي وراء شبكات CapsNets في قدرتها على الحفاظ على التسلسلات الهرمية المكانية بين الملامح. فبينما قد تتعرف شبكة CNN على مكونات الوجه - مثل الفم والأنف والعينين - إلا أنها لا تفهم بوضوح علاقاتها المكانية. ومع ذلك، تستخدم شبكات CapsNets مجموعات من الخلايا العصبية تسمى كبسولات لتحديد هذه الأجزاء وتوجهاتها النسبية. يتم تحقيق ذلك من خلال عملية تسمى "التوجيه الديناميكي"، حيث ترسل الكبسولات ذات المستوى الأدنى مخرجاتها إلى كبسولات ذات مستوى أعلى يمكنها تفسير نتائجها بشكل أفضل. ويختلف هذا النهج اختلافًا جوهريًا عن طبقات التجميع في شبكات CNN، والتي غالبًا ما تتجاهل المعلومات المكانية المهمة. تم تفصيل المفهوم الأصلي في الورقة البحثية " التوجيه الديناميكي بين الكبسولات".

شبكات CapsNets مقابل الشبكات العصبية التلافيفية

يكمن الفرق الأساسي بين شبكات CapsNets وشبكات CNN في كيفية تعاملها مع المعلومات المكانية والتجريد.

  • الثبات المكاني: تحقق شبكات CNN الثبات المكاني من خلال تجميع الطبقات، مما قد يؤدي إلى فقدان بيانات الموقع الدقيقة. على النقيض من ذلك، صُممت شبكات CapsNets لتكون "متساوية التباين"، مما يعني أنها تستطيع فهم معلومات وضعية الجسم والحفاظ عليها أثناء تحركه عبر الإطار.
  • كفاءة البيانات: نظراً لهيكلها الداخلي المتطور، يمكن لشبكات CapsNets في كثير من الأحيان تحقيق دقة عالية ببيانات تدريب أقل بكثير مقارنةً بنماذج التعلم العميق المتعطشة للبيانات.
  • التمثيل الهرمي: تقوم شبكات CapsNets ببناء شجرة تحليل واضحة للكيانات المرئية، مما يسمح لها بفهم الكل كتركيبة من أجزائه. هذه طريقة أكثر بديهية لأداء مهام مثل اكتشاف الكائنات مما تقدمه شبكات CNN القياسية.

في حين أن النماذج مثل Ultralytics YOLO مُحسّنة للغاية لتحقيق السرعة والدقة في مهام الرؤية الحاسوبية العملية، فإن CapsNets تمثل فلسفة معمارية بديلة تركز على تحسين الفهم الأساسي للمشاهد المرئية. يمكنك استكشاف المقارنات بين نماذج مختلفة لاكتشاف الكائنات لفهم المشهد الحالي.

التطبيقات الواقعية

على الرغم من أن شبكات CapsNets لا تزال في المقام الأول مجالًا للبحث النشط وأقل شيوعًا من النماذج الراسخة مثل YOLO11، إلا أنها أثبتت أنها واعدة في العديد من المجالات:

  1. التعرّف على الحروف: حقّقت CapsNets أحدث النتائج على مجموعة بيانات MNIST للأرقام المكتوبة بخط اليد، مما أظهر قدرتها على التعامل مع الاختلافات في الاتجاه والأسلوب بفعالية، متجاوزةً بذلك مناهج تصنيف الصور التقليدية في بعض المعايير.
  2. تحليل الصور الطبية: إن قوتها في فهم التكوينات المكانية تجعلها مناسبة لتحليل عمليات المسح الطبي. على سبيل المثال، استكشفت الأبحاث استخدام شبكات CapsNets في مهام مثل تجزئة أورام الدماغ، حيث يكون تحديد الشكل والموقع الدقيق للشذوذات أمرًا بالغ الأهمية. وهذا يندرج تحت المجال الأوسع لتحليل الصور الطبية.

وتشمل التطبيقات المحتملة الأخرى تحسين اكتشاف الأجسام، لا سيما في المشاهد المشوشة، وتعزيز فهم المشهد في الروبوتات، والمساهمة في أنظمة إدراك أكثر قوة للمركبات ذاتية القيادة. بينما تظل المتطلبات الحسابية تمثل تحديًا، تهدف الأبحاث الجارية إلى تحسين كفاءة CapsNet لتطبيقات التعلم الآلي الأوسع نطاقًا والتكامل المحتمل في أطر عمل مثل PyTorch أو TensorFlow.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة