اكتشف شبكات الكبسولة (CapsNets): بنية شبكة عصبية رائدة تتفوق في التسلسلات الهرمية المكانية وعلاقات الميزات.
تمثل شبكات الكبسولة (CapsNets) تطورًا متطورًا في مجال التعلُّم العميق (DL) المصمم لمعالجة القيود الموجودة في الشبكات العصبية التلافيفية التقليدية (CNNs). قدم لأول مرة الباحث الشهير جيفري هينتون وزملاؤه وزملاؤه، وتنظم هذه البنية الخلايا العصبية في مجموعات تُعرف باسم "الكبسولات". على عكس الخلايا العصبية القياسية التي تُخرج قيمة تنشيط قياسية واحدة، تُخرج الكبسولة متجهاً. يسمح اتجاه المتجه وطوله للشبكة للشبكة بتشفير معلومات أكثر ثراءً عن جسم ما، مثل موضعه الدقيق وحجمه واتجاهه وملمسه. تمكّن هذه الإمكانية النموذج من فهم العلاقات الهرمية بين السمات بشكل أفضل، وبشكل أساسي إجراء "رسومات عكسية" لتفكيك المشهد المرئي.
إن السمة المميزة لشبكة CapsNet هي قدرتها على الحفاظ على العلاقات المكانية بين الأجزاء المختلفة المختلفة من الجسم. في معيار الرؤية الحاسوبية القياسية (CV) باستخدام الشبكات الشبكية ذات الشبكات المترابطة (CNNs)، فإن الطبقات غالباً ما تستخدم عمليات التجميع لتقليل الأبعاد، والتي عادةً ما تتجاهل البيانات المكانية الدقيقة لتحقيق الثبات. ومع ذلك، تهدف شبكات CapsNets إلى تحقيق "التباين"، مما يعني أنه إذا تحرك جسم ما أو دار في الصورة، يتغير تمثيل متجه الكبسولة بشكل متناسب بدلاً من أن يصبح غير قابل للتعرف عليه.
يتم تحقيق ذلك من خلال عملية تسمى "التوجيه الديناميكي" أو "التوجيه بالاتفاق". بدلاً من ببساطة إعادة توجيه الإشارات إلى جميع الخلايا العصبية في الطبقة التالية، ترسل كبسولات المستوى الأدنى مخرجاتها إلى كبسولات المستوى الأعلى المستوى الأعلى التي "تتفق" مع تنبؤاتها. على سبيل المثال، ترسل الكبسولة التي تكتشف أنفًا إشارة قوية إلى كبسولة كبسولة الوجه إذا كان الاتجاه المكاني متوافقًا مع الاتجاه المكاني، مما يعزز الفهم الهيكلي لعملية عملية استخراج الميزة. كان هذا المفهوم مفصلاً بشكل مشهور في الورقة البحثية المتعلقة التوجيه الديناميكي بين الكبسولات.
في حين أن كلا البنيتين محوريتين في التعلم الآلي (ML)، إلا أنهما يتباينان بشكل كبير في كيفية معالجة البيانات المرئية:
على الرغم من أن شبكات CapsNets كثيفة الحوسبة وأقل اعتمادًا على نطاق واسع من البنى المحسّنة مثل YOLO11إلا أنها أظهرت نتائج واعدة في مجالات محددة عالية الرهانات محددة عالية المخاطر:
في حين أن CapsNets تقدم مزايا نظرية، إلا أن معايير الصناعة الحديثة غالبًا ما تفضل معايير الصناعة الحديثة سي إن إن المحسنة للغاية أو
أو النماذج القائمة على المحولات من أجل السرعة. ومع ذلك، يمكنك تجربة مهام التصنيف - المعيار الأساسي ل
لشبكات CapsNets باستخدام ultralytics المكتبة. يوضح المثال التالي تدريب نموذج تصنيف YOLO11
على مجموعة بيانات MNIST وهو ملعب شائع لاختبار التعرّف على السمات الهرمية.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
يستمر البحث في شبكات الكبسولة في التأثير على تطوير سلامة الذكاء الاصطناعي وقابليته للتفسير. من خلال النمذجة الصريحة العلاقات بين الجزء والكل، فإنها توفر مسارًا نحو ذكاء اصطناعي أكثر قابلية للتفسير مقارنةً بطبيعة "الصندوق الأسود" بعض الشبكات العميقة. قد تركز التطورات المستقبلية على دمج هذه المفاهيم في الكشف عن الأجسام ثلاثية الأبعاد وتقليل التكلفة الحسابية لخوارزميات التوجيه، مما قد يدمج كفاءة نماذج مثل YOLO26 مع الفهم المكاني القوي للكبسولات.