Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

شبكات الكبسولة (CapsNet)

Explore Capsule Networks (CapsNets) and how they preserve spatial hierarchies to solve the "Picasso problem" in AI. Learn about dynamic routing and vector neurons.

تمثل شبكات الكبسولة، التي غالبًا ما يشار إليها اختصارًا بـ CapsNets، بنية متقدمة في مجال التعلم العميق مصممة للتغلب على القيود المحددة الموجودة في الشبكات العصبية التقليدية. قدمها جيفري هينتون وفريقه ، وتحاول شبكات CapsNets محاكاة التنظيم العصبي البيولوجي للدماغ البشري بشكل أقرب من النماذج القياسية . على عكس الشبكة العصبية التلافيفية (CNN) النموذجية، التي تتفوق في اكتشاف الميزات ولكنها غالبًا ما تفقد العلاقات المكانية بسبب تقليل الدقة، تقوم شبكة الكبسولة بتنظيم الخلايا العصبية في مجموعات تسمى "كبسولات". لا تقوم هذه الكبسولات بترميز احتمالية وجود كائن فحسب، بل أيضًا خصائصه المحددة، مثل الاتجاه والحجم والملمس، مما يحافظ بشكل فعال على العلاقات المكانية الهرمية داخل البيانات المرئية.

محدودية الشبكات العصبية الاصطناعية التقليدية

لفهم ابتكار CapsNets، من المفيد النظر إلى كيفية عمل نماذج الرؤية الحاسوبية القياسية. تستخدم شبكة CNN التقليدية طبقات من استخراج الميزات تليها طبقات تجميع — وتحديدًا التجميع الأقصى— لتقليل الحمل الحسابي وتحقيق ثبات الترجمة. وهذا يعني أن شبكة CNN يمكنها التعرف على "قطة" بغض النظر عن مكانها في الصورة.

ومع ذلك، غالبًا ما تتجاهل هذه العملية بيانات الموقع الدقيقة، مما يؤدي إلى "مشكلة بيكاسو": classify شبكة CNN classify بشكل صحيح حتى لو كان الفم موجودًا على الجبهة، وذلك ببساطة لأن جميع الميزات الضرورية موجودة. تعالج شبكات CapsNets هذه المشكلة عن طريق إزالة طبقات التجميع واستبدالها بعملية تحترم التسلسلات الهرمية المكانية للأشياء.

كيف تعمل شبكات الكبسولة

اللبنة الأساسية لهذه البنية هي الكبسولة، وهي مجموعة متداخلة من الخلايا العصبية التي تنتج متجهًا بدلاً من قيمة عددية. في حساب المتجهات، للمتجه مقدار واتجاه. في CapsNet:

  • الحجم (الطول): يمثل احتمالية وجود كيان معين في المدخلات الحالية.
  • الاتجاه (التوجيه): يشفر معلمات التمثيل، مثل تقدير وضع الكائن وحجمه ودورانه.

تتنبأ الكبسولات في الطبقات السفلية (التي تكتشف الأشكال البسيطة مثل الحواف) بنتائج الكبسولات في الطبقات العليا (التي تكتشف الأشياء المعقدة مثل العيون أو الإطارات). تتم إدارة هذا التواصل بواسطة خوارزمية تسمى "التوجيه الديناميكي" أو "التوجيه بالاتفاق". إذا كان توقع الكبسولة ذات المستوى الأدنى يتوافق مع حالة الكبسولة ذات المستوى الأعلى ، يتم تعزيز الاتصال بينهما. وهذا يسمح للشبكة بالتعرف على الأشياء من زوايا رؤية ثلاثية الأبعاد مختلفة دون الحاجة إلى زيادة البيانات الضخمة التي عادة ما تكون مطلوبة لتعليم شبكات CNN عن الدوران والحجم.

الاختلافات الرئيسية: CapsNets مقابل CNNs

في حين أن كلا البنيتين أساسيتان لرؤية الكمبيوتر (CV)، إلا أنهما تختلفان في كيفية معالجة البيانات المرئية وتمثيلها:

  • العددي مقابل المتجه: تستخدم الخلايا العصبية في الشبكات العصبية الاصطناعية (CNN) مخرجات عددية للإشارة إلى وجود السمات. تستخدم شبكات CapsNet المتجهات لترميز وجود السمات (الطول) ومعلمات الوضع (الاتجاه).
  • التوجيه مقابل التجميع: تستخدم شبكات CNN التجميع لتقليل دقة البيانات، مما يؤدي غالبًا إلى فقدان تفاصيل الموقع. تستخدم شبكات CapsNets التوجيه الديناميكي للحفاظ على البيانات المكانية، مما يجعلها فعالة للغاية في المهام التي تتطلب تتبعًا دقيقًا للكائنات.
  • كفاءة البيانات: نظرًا لأن الكبسولات تفهم ضمنيًا وجهات النظر ثلاثية الأبعاد والتحويلات الأفينية، فإنها غالبًا ما يمكنها التعميم من بيانات تدريب أقل مقارنة بشبكات CNN، التي قد تتطلب أمثلة مستفيضة لتعلم كل دوران ممكن لجسم ما.

تطبيقات واقعية

على الرغم من أن شبكات CapsNet غالبًا ما تكون أكثر تكلفة من الناحية الحسابية من النماذج المُحسّنة مثل YOLO26، إلا أنها توفر مزايا واضحة في المجالات المتخصصة :

  1. تحليل الصور الطبية: في مجال الرعاية الصحية، يعد التوجه الدقيق والشكل الدقيق للخلل أمرًا حاسمًا. وقد طبق الباحثون شبكات CapsNets على تقسيم أورام الدماغ، حيث يجب أن يميز النموذج الورم عن الأنسجة المحيطة به استنادًا إلى التسلسلات الهرمية المكانية الدقيقة التي قد تتجاهلها شبكات CNN القياسية . يمكنك استكشاف الأبحاث ذات الصلة حول شبكات Capsule Networks في التصوير الطبي.
  2. التعرف على الأرقام المتداخلة: حققت CapsNets نتائج متطورة على MNIST خاصة في السيناريوهات التي تتداخل فيها الأرقام. نظرًا لأن الشبكة تتعقب "وضع" كل رقم، يمكنها فصل رقمين متداخلين (على سبيل المثال، الرقم "3" فوق الرقم "5") ككائنين منفصلين بدلاً من دمجهما في خريطة ميزات واحدة غير واضحة .

السياق العملي والتنفيذ

شبكات الكبسولة هي في الأساس بنية تصنيفية. على الرغم من أنها توفر متانة نظرية، إلا أن التطبيقات الصناعية الحديثة غالبًا ما تفضل شبكات CNN عالية السرعة أو محولات Transformers للحصول على أداء في الوقت الفعلي. ومع ذلك، من المفيد فهم معايير التصنيف المستخدمة في CapsNets، مثل MNIST.

يوضح المثال التالي كيفية تدريب نموذج YOLO على MNIST باستخدام ultralytics الحزمة. وهذا يوازي المهمة المعيارية الأساسية المستخدمة للتحقق من صحة شبكات الكبسولات.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

مستقبل الكبسولات والرؤية الاصطناعية

تستمر المبادئ الكامنة وراء شبكات الكبسولات في التأثير على أبحاث سلامة الذكاء الاصطناعي وقابليته للتفسير. من خلال النمذجة الصريحة للعلاقات بين الأجزاء والكل، توفر الكبسولات بديلاً "صندوقاً زجاجياً" لطبيعة "الصندوق الأسود" للشبكات العصبية العميقة، مما يجعل القرارات أكثر قابلية للتفسير. تتطلع التطورات المستقبلية إلى الجمع بين المتانة المكانية للكبسولات وسرعة الاستدلال في بنى مثل YOLO11 أو YOLO26 الأحدث لتحسين الأداء في الكشف عن الأجسام ثلاثية الأبعاد والروبوتات. كما يبحث الباحثون في كبسولات المصفوفة مع توجيه EM لتقليل التكلفة الحسابية لخوارزمية الاتفاق.

بالنسبة للمطورين الذين يسعون إلى إدارة مجموعات البيانات وتدريب النماذج بكفاءة، توفر Ultralytics بيئة موحدة لتعليق البيانات، والتدريب في السحابة، ونشر النماذج التي توازن بين سرعة شبكات CNN والدقة المطلوبة لمهام الرؤية المعقدة .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن