Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

شبكات الكبسولة (CapsNet)

اكتشف شبكات الكبسولة (CapsNets): بنية شبكة عصبية رائدة تتفوق في التسلسلات الهرمية المكانية وعلاقات الميزات.

تمثل شبكات الكبسولة (CapsNets) تطورًا متطورًا في مجال التعلُّم العميق (DL) المصمم لمعالجة القيود الموجودة في الشبكات العصبية التلافيفية التقليدية (CNNs). قدم لأول مرة الباحث الشهير جيفري هينتون وزملاؤه وزملاؤه، وتنظم هذه البنية الخلايا العصبية في مجموعات تُعرف باسم "الكبسولات". على عكس الخلايا العصبية القياسية التي تُخرج قيمة تنشيط قياسية واحدة، تُخرج الكبسولة متجهاً. يسمح اتجاه المتجه وطوله للشبكة للشبكة بتشفير معلومات أكثر ثراءً عن جسم ما، مثل موضعه الدقيق وحجمه واتجاهه وملمسه. تمكّن هذه الإمكانية النموذج من فهم العلاقات الهرمية بين السمات بشكل أفضل، وبشكل أساسي إجراء "رسومات عكسية" لتفكيك المشهد المرئي.

فهم الآلية الأساسية

إن السمة المميزة لشبكة CapsNet هي قدرتها على الحفاظ على العلاقات المكانية بين الأجزاء المختلفة المختلفة من الجسم. في معيار الرؤية الحاسوبية القياسية (CV) باستخدام الشبكات الشبكية ذات الشبكات المترابطة (CNNs)، فإن الطبقات غالباً ما تستخدم عمليات التجميع لتقليل الأبعاد، والتي عادةً ما تتجاهل البيانات المكانية الدقيقة لتحقيق الثبات. ومع ذلك، تهدف شبكات CapsNets إلى تحقيق "التباين"، مما يعني أنه إذا تحرك جسم ما أو دار في الصورة، يتغير تمثيل متجه الكبسولة بشكل متناسب بدلاً من أن يصبح غير قابل للتعرف عليه.

يتم تحقيق ذلك من خلال عملية تسمى "التوجيه الديناميكي" أو "التوجيه بالاتفاق". بدلاً من ببساطة إعادة توجيه الإشارات إلى جميع الخلايا العصبية في الطبقة التالية، ترسل كبسولات المستوى الأدنى مخرجاتها إلى كبسولات المستوى الأعلى المستوى الأعلى التي "تتفق" مع تنبؤاتها. على سبيل المثال، ترسل الكبسولة التي تكتشف أنفًا إشارة قوية إلى كبسولة كبسولة الوجه إذا كان الاتجاه المكاني متوافقًا مع الاتجاه المكاني، مما يعزز الفهم الهيكلي لعملية عملية استخراج الميزة. كان هذا المفهوم مفصلاً بشكل مشهور في الورقة البحثية المتعلقة التوجيه الديناميكي بين الكبسولات.

تمييز شبكات CapsNets عن CNNs

في حين أن كلا البنيتين محوريتين في التعلم الآلي (ML)، إلا أنهما يتباينان بشكل كبير في كيفية معالجة البيانات المرئية:

  • المخرجات العددية مقابل المخرجات المتجهة: توفر الخلايا العصبية لشبكة CNN قيمة قياسية تشير إلى وجود ميزة ما. تستخدم شبكات CapsNets مخرجات متجهة لتمثيل وجود كيان ما وخصائصه (الوضع، التشوه، التدرج اللوني).
  • التجميع مقابل التوجيه: تستخدم شبكات CNNs طبقات التجميع (مثل التجميع الأقصى التجميع) لتحقيق الثبات الانتقالي، وغالبًا ما تفقد تفاصيل الموقع. تستخدم شبكات CapsNets التوجيه الديناميكي للحفاظ على التسلسل الهرمي المكاني، مما يجعلها أكثر فعالية في مهام مثل تقدير الوضعية.
  • كفاءة البيانات: نظرًا لأن شبكات CapsNets تقوم بتشفير اختلافات وجهات النظر داخليًا، فقد تتطلب بيانات تدريب أقل بيانات تدريب أقل للتعميم مقارنةً بالنماذج التقليدية التقليدية، والتي غالباً ما تحتاج إلى زيادة كبيرة في البيانات لتعلم الدوران أو التحويلات التحويلات.

تطبيقات واقعية

على الرغم من أن شبكات CapsNets كثيفة الحوسبة وأقل اعتمادًا على نطاق واسع من البنى المحسّنة مثل YOLO11إلا أنها أظهرت نتائج واعدة في مجالات محددة عالية الرهانات محددة عالية المخاطر:

  1. تحليل الصور الطبية: إن القدرة على التعامل مع التسلسلات الهرمية المكانية تجعل من CapsNets ذات قيمة في لتحليل الصور الطبية. على سبيل المثال قام الباحثون بتطبيقها على تجزئة أورام الدماغ، حيث يكون التمييز بين الشكل والاتجاه الدقيق للورم من الأنسجة المحيطة به أمر بالغ الأهمية للتشخيص الدقيق.
  2. التعرف على الأرقام المكتوبة بخط اليد: حققت CapsNets أداءً متقدمًا على مجموعة بيانات مجموعة بياناتMNIST خاصةً في السيناريوهات التي تتضمن أرقاماً متداخلة حيث قد تكافح نماذج تصنيف الصور القياسية في فصل الميزات.

التنفيذ العملي

في حين أن CapsNets تقدم مزايا نظرية، إلا أن معايير الصناعة الحديثة غالبًا ما تفضل معايير الصناعة الحديثة سي إن إن المحسنة للغاية أو أو النماذج القائمة على المحولات من أجل السرعة. ومع ذلك، يمكنك تجربة مهام التصنيف - المعيار الأساسي ل لشبكات CapsNets باستخدام ultralytics المكتبة. يوضح المثال التالي تدريب نموذج تصنيف YOLO11 على مجموعة بيانات MNIST وهو ملعب شائع لاختبار التعرّف على السمات الهرمية.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

التوقعات المستقبلية

يستمر البحث في شبكات الكبسولة في التأثير على تطوير سلامة الذكاء الاصطناعي وقابليته للتفسير. من خلال النمذجة الصريحة العلاقات بين الجزء والكل، فإنها توفر مسارًا نحو ذكاء اصطناعي أكثر قابلية للتفسير مقارنةً بطبيعة "الصندوق الأسود" بعض الشبكات العميقة. قد تركز التطورات المستقبلية على دمج هذه المفاهيم في الكشف عن الأجسام ثلاثية الأبعاد وتقليل التكلفة الحسابية لخوارزميات التوجيه، مما قد يدمج كفاءة نماذج مثل YOLO26 مع الفهم المكاني القوي للكبسولات.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن