Capsule Networks (CapsNet)
استكشف شبكات الكبسولات (CapsNets) وكيف تحل قيود الشبكات العصبية التلافيفية (CNNs). تعلم عن التوجيه الديناميكي، والتسلسلات الهرمية المكانية، ومقارنة CapsNets بـ YOLO26.
تُمثل شبكات الكبسولات، والتي يُشار إليها اختصاراً بـ CapsNets، بنية متقدمة في مجال التعلم العميق مصممة للتغلب على قيود محددة موجودة في الشبكات العصبية التقليدية. وقد قدمها Geoffrey Hinton وفريقه، حيث تحاول CapsNets محاكاة التنظيم العصبي البيولوجي للدماغ البشري بشكل أدق من النماذج القياسية. وعلى عكس الشبكة العصبية التلافيفية (CNN) النموذجية، التي تتفوق في اكتشاف الميزات ولكنها غالباً ما تفقد العلاقات المكانية بسبب تقليل العينات (downsampling)، تقوم شبكة الكبسولات بتنظيم العصبونات في مجموعات تُسمى "الكبسولات". لا تكتفي هذه الكبسولات بتشفير احتمالية وجود كائن ما فحسب، بل تشفر أيضاً خصائصه المحددة، مثل الاتجاه والحجم والملمس، مما يحافظ بفعالية على العلاقات المكانية الهرمية داخل البيانات المرئية.
Link to this sectionقيود شبكات CNN التقليدية#
لفهم الابتكار الذي تقدمه CapsNets، من المفيد النظر في كيفية عمل نماذج الرؤية الحاسوبية القياسية. تستخدم شبكات CNN التقليدية طبقات استخراج الميزات متبوعة بطبقات تجميع - وتحديداً التجميع الأقصى (max pooling) - لتقليل العبء الحسابي وتحقيق ثبات الترجمة (translational invariance). وهذا يعني أن شبكة CNN يمكنها التعرف على "قطة" بغض النظر عن مكان وجودها في الصورة.
ومع ذلك، غالباً ما تتجاهل هذه العملية بيانات الموقع الدقيقة، مما يؤدي إلى "مشكلة بيكاسو": قد تصنف شبكة CNN وجهاً بشكل صحيح حتى لو كان الفم على الجبهة، ببساطة لأن جميع الميزات الضرورية موجودة. تعالج CapsNets هذه المشكلة عن طريق إزالة طبقات التجميع واستبدالها بعملية تحترم التسلسلات الهرمية المكانية للكائنات.
Link to this sectionكيف تعمل شبكات الكبسولات#
لبنة البناء الأساسية لهذه البنية هي الكبسولة، وهي مجموعة متداخلة من العصبونات التي تُخرج متجهاً بدلاً من قيمة عددية. في رياضيات المتجهات، يمتلك المتجه مقداراً واتجاهاً. في شبكات CapsNet:
- المقدار (الطول): يمثل احتمالية وجود كيان معين في المدخلات الحالية.
- الاتجاه (التوجيه): يشفر معلمات التجسيد، مثل تقدير وضعية الكائن وحجمه ودورانه.
تتنبأ الكبسولات في الطبقات الدنيا (التي تكتشف أشكالاً بسيطة مثل الحواف) بمخرجات الكبسولات في الطبقات الأعلى (التي تكتشف كائنات معقدة مثل العيون أو الإطارات). تتم إدارة هذا التواصل بواسطة خوارزمية تسمى "التوجيه الديناميكي" أو "التوجيه بالاتفاق". إذا توافق تنبؤ كبسولة المستوى الأدنى مع حالة كبسولة المستوى الأعلى، يتم تعزيز الاتصال بينهما. يسمح هذا للشبكة بالتعرف على الكائنات من وجهات نظر ثلاثية الأبعاد مختلفة دون الحاجة إلى تعزيز البيانات الهائل الذي تحتاجه عادةً شبكات CNN لتعليمها حول الدوران والحجم.
Link to this sectionالاختلافات الرئيسية: CapsNets مقابل CNNs#
على الرغم من أن كلتا البنيتين أساسيتان في الرؤية الحاسوبية (CV)، إلا أنهما تختلفان في كيفية معالجة وتمثيل البيانات المرئية:
- القيم العددية مقابل المتجهات: تستخدم عصبونات CNN مخرجات عددية للإشارة إلى وجود الميزة. بينما تستخدم CapsNets متجهات لتشفير الوجود (الطول) ومعلمات الوضعية (الاتجاه).
- التوجيه مقابل التجميع: تستخدم شبكات CNN التجميع لتقليل عينات البيانات، مما يؤدي غالباً إلى فقدان تفاصيل الموقع. بينما تستخدم CapsNets التوجيه الديناميكي للحفاظ على البيانات المكانية، مما يجعلها فعالة للغاية للمهام التي تتطلب تتبع الكائنات بدقة.
- كفاءة البيانات: نظراً لأن الكبسولات تفهم ضمنياً وجهات النظر ثلاثية الأبعاد والتحويلات الأفينية، فهي غالباً ما تكون قادرة على التعميم من كميات أقل من بيانات التدريب مقارنة بشبكات CNN، التي قد تتطلب أمثلة مكثفة لتعلم كل دوران ممكن للكائن.
Link to this sectionتطبيقات العالم الحقيقي#
على الرغم من أن CapsNets غالباً ما تكون أكثر تكلفة من الناحية الحسابية من النماذج المحسنة مثل YOLO26، إلا أنها توفر مزايا متميزة في مجالات متخصصة:
-
تحليل الصور الطبية: في الرعاية الصحية، تعتبر الاتجاهات والشكل الدقيق للتشوهات أمراً بالغ الأهمية. طبق الباحثون CapsNets على تجزئة أورام الدماغ، حيث يجب على النموذج تمييز الورم عن الأنسجة المحيطة بناءً على تسلسلات هرمية مكانية دقيقة قد تتجاهلها شبكات CNN القياسية. يمكنك استكشاف الأبحاث ذات الصلة حول شبكات الكبسولات في التصوير الطبي.
-
التعرف على الأرقام المتداخلة: حققت CapsNets نتائج رائدة على مجموعة بيانات MNIST وتحديداً في السيناريوهات التي تتداخل فيها الأرقام. ولأن الشبكة تتعقب "وضعية" كل رقم، يمكنها فصل رقمين متداخلين (على سبيل المثال، '3' فوق '5') ككائنات منفصلة بدلاً من دمجهما في خريطة ميزات واحدة مشوشة.
Link to this sectionالسياق العملي والتنفيذ#
شبكات الكبسولات هي في الأساس بنية تصنيف. وبينما توفر متانة نظرية، فإن تطبيقات الصناعة الحديثة غالباً ما تفضل شبكات CNN عالية السرعة أو المحولات (Transformers) لتحقيق أداء في الوقت الفعلي. ومع ذلك، فإن فهم معايير التصنيف المستخدمة لـ CapsNets، مثل MNIST، يعد أمراً مفيداً.
يوضح المثال التالي كيفية تدريب نموذج تصنيف YOLO حديث على مجموعة بيانات MNIST باستخدام حزمة ultralytics. وهذا يوازي مهمة القياس الأساسية المستخدمة للتحقق من صحة شبكات الكبسولات.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")Link to this sectionمستقبل الكبسولات ورؤية الذكاء الاصطناعي#
تستمر المبادئ الكامنة وراء شبكات الكبسولات في التأثير على أبحاث سلامة الذكاء الاصطناعي وقابلية التفسير. من خلال نمذجة علاقات الجزء بالكل بشكل صريح، توفر الكبسولات بديلاً "شفافاً" لطبيعة "الصندوق الأسود" للشبكات العصبية العميقة، مما يجعل القرارات أكثر قابلية للتفسير. تتطلع التطورات المستقبلية إلى الجمع بين المتانة المكانية للكبسولات وسرعة استدلال البنى مثل YOLO11 أو نموذج YOLO26 الأحدث لتحسين الأداء في اكتشاف الكائنات ثلاثية الأبعاد والروبوتات. يستكشف الباحثون أيضاً كبسولات المصفوفات مع توجيه EM لتقليل التكلفة الحسابية لخوارزمية الاتفاق بشكل أكبر.
بالنسبة للمطورين الذين يتطلعون إلى إدارة مجموعات البيانات وتدريب النماذج بكفاءة، توفر منصة Ultralytics بيئة موحدة لتعليق البيانات، والتدريب في السحابة، ونشر النماذج التي توازن بين سرعة شبكات CNN والدقة المطلوبة لمهام الرؤية المعقدة.






