الشبكة العصبية الالتفافية (CNN)
اكتشف كيف تُحدث الشبكات العصبية التلافيفية (CNNs) ثورة في الرؤية الحاسوبية، مما يدعم الذكاء الاصطناعي في الرعاية الصحية والسيارات ذاتية القيادة والمزيد.
الشبكة العصبية التلافيفية (CNN) هي نوع متخصص من الشبكة العصبية (NN) التي تتسم بفعالية عالية في معالجة البيانات ذات الطوبولوجيا الشبيهة بالشبكة، مثل الصور. مستوحاة من قشرة الدماغ البصري البشري، تتعلم الشبكات العصبية التلافيفية تلقائيًا وبشكل تكيفي التسلسلات الهرمية المكانية للميزات من بيانات الإدخال. وهذا يجعلها البنية التأسيسية لمعظم مهام رؤية الكمبيوتر (CV) الحديثة، حيث حققت نتائج متطورة في كل شيء بدءًا من تصنيف الصور وحتى اكتشاف الكائنات.
كيف تعمل الشبكات العصبونية الالتفافية (CNN)؟
على عكس الشبكة العصبية القياسية حيث يتصل كل عصبون في طبقة واحدة بكل عصبون في الطبقة التالية، تستخدم الشبكات العصبية الالتفافية (CNNs) عملية رياضية خاصة تسمى الالتفاف. يتيح ذلك للشبكة تعلم الميزات في حقل استقبال محلي، مع الحفاظ على العلاقات المكانية بين وحدات البكسل.
تتكون بنية الشبكة العصبونية الالتفافية (CNN) النموذجية من عدة طبقات رئيسية:
- طبقة التفافية: هذا هو لبنة البناء الأساسية حيث تنزلق المرشحات أو النواة فوق الصورة المدخلة لإنتاج خرائط الميزات. تسلط هذه الخرائط الضوء على أنماط مثل الحواف والزوايا والقوام. يتم تعلم حجم هذه المرشحات والأنماط التي تكتشفها أثناء تدريب النموذج.
- طبقة التنشيط (Activation Layer): بعد كل التفاف (convolution)، يتم تطبيق دالة تنشيط (activation function) مثل ReLU لإدخال اللا-خطية (non-linearity)، مما يسمح للنموذج بتعلم أنماط أكثر تعقيدًا.
- طبقة التجميع (أخذ العينات السفلية): تقلل هذه الطبقة من الأبعاد المكانية (العرض والارتفاع) لخرائط الميزات، مما يقلل من الحمل الحسابي ويساعد على جعل الميزات المكتشفة أكثر قوة في مواجهة التغيرات في الموضع والاتجاه. إحدى الأوراق الكلاسيكية حول هذا الموضوع هي تصنيف ImageNet باستخدام الشبكات العصبية التلافيفية العميقة.
- طبقة متصلة بالكامل: بعد عدة طبقات التفافية وتجميع، يتم تسطيح الميزات عالية المستوى وتمريرها إلى طبقة متصلة بالكامل، والتي تقوم بالتصنيف بناءً على الميزات التي تم تعلمها.
الشبكات العصبونية الالتفافية (CNN) مقابل البنى الأخرى
في حين أن CNNs هي نوع من نماذج التعلم العميق، إلا أنها تختلف اختلافًا كبيرًا عن البنيات الأخرى.
- الشبكات العصبية (NNs): تتعامل الشبكة العصبية القياسية (NN) مع بيانات الإدخال كمتجه مسطح، مما يفقد كل المعلومات المكانية. تحافظ الشبكات العصبية التلافيفية (CNNs) على هذه المعلومات، مما يجعلها مثالية لتحليل الصور.
- محولات الرؤية (ViTs): على عكس الشبكات العصبونية الالتفافية (CNNs)، التي لديها تحيز استقرائي قوي للموقع المكاني، محولات الرؤية (ViTs) تعامل مع الصورة على أنها سلسلة من الرقع واستخدم الانتباه الذاتي (self-attention) آلية لتعلم العلاقات العالمية. غالبًا ما تتطلب ViT المزيد من البيانات للتدريب ولكن يمكن أن تتفوق في المهام التي يكون فيها السياق بعيد المدى مهمًا. العديد من النماذج الحديثة، مثل RT-DETR، استخدم نهجًا هجينًا، يجمع بين CNN
backbone
مع نموذج قائم على Transformer detection head
.
تطبيقات واقعية
تعد الشبكات العصبونية الالتفافية (CNN) القوة الدافعة وراء عدد لا يحصى من التطبيقات الواقعية:
الأدوات والأطر
يتم دعم تطوير ونشر الشبكات العصبونية الالتفافية (CNNs) بواسطة أدوات وأطر عمل قوية: