الذكاء الاصطناعي المرئي

ما هو Mask R-CNN وكيف يعمل؟

تعلم كيفية استخدام Mask R-CNN لتجزئة الأشياء بدقة في الصور ومقاطع الفيديو لمختلف التطبيقات عبر قطاعات متعددة.

أبأبيرامي فينا

4 min readMarch 21, 2025

تزداد الابتكارات مثل الروبوتات في المستودعات، والسيارات ذاتية القيادة التي تتحرك بأمان في الشوارع المزدحمة، والطائرات بدون طيار التي تفحص المحاصيل، وأنظمة الذكاء الاصطناعي التي تفحص المنتجات في المصانع، وذلك مع تزايد تبني الذكاء الاصطناعي. إحدى التقنيات الرئيسية التي تدفع هذه الابتكارات هي الرؤية الحاسوبية، وهي فرع من الذكاء الاصطناعي يمكّن الآلات من فهم وتفسير البيانات المرئية.

على سبيل المثال، يعد اكتشاف الكائنات مهمة في الرؤية الحاسوبية تساعد في تحديد وتحديد مواقع الكائنات في الصور باستخدام مربعات الإحاطة (bounding boxes). على الرغم من أن مربعات الإحاطة توفر معلومات مفيدة، إلا أنها تقدم تقديراً تقريبياً فقط لموقع الكائن ولا يمكنها التقاط شكله الدقيق أو حدوده. وهذا يجعلها أقل فعالية في التطبيقات التي تتطلب تحديداً دقيقاً.

لحل هذه المشكلة، طور الباحثون نماذج تجزئة (segmentation models) تلتقط الخطوط العريضة الدقيقة للكائنات، مما يوفر تفاصيل على مستوى البكسل لاكتشاف وتحليل أكثر دقة.

Mask R-CNN هو أحد هذه النماذج. تم تقديمه في عام 2017 من قبل مختبر أبحاث الذكاء الاصطناعي في فيسبوك (FAIR)، وهو يعتمد على نماذج سابقة مثل R-CNN وFast R-CNN وFaster R-CNN. كعلامة فارقة مهمة في تاريخ الرؤية الحاسوبية، مهد Mask R-CNN الطريق لنماذج أكثر تقدماً، مثل Ultralytics YOLO11.

في هذه المقالة، سنستكشف ما هو Mask R-CNN، وكيف يعمل، وتطبيقاته، وما هي التحسينات التي جاءت بعده، مما أدى إلى ظهور YOLO11.

Link to this sectionنظرة عامة على Mask R-CNN#

Mask R-CNN، والذي يرمز إلى Mask Region-based Convolutional Neural Network، هو نموذج تعلم عميق مصمم لـ مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيلات (instance segmentation).

تتجاوز تجزئة المثيلات اكتشاف الكائنات التقليدي ليس فقط من خلال تحديد الكائنات في الصورة ولكن أيضاً من خلال تحديد حدود كل منها بدقة. فهي تخصص تسمية فريدة لكل كائن مكتشف وتلتقط شكله الدقيق على مستوى البكسل. هذا النهج التفصيلي يجعل من الممكن التمييز بوضوح بين الكائنات المتداخلة والتعامل بدقة مع الأشكال المعقدة.

يعتمد Mask R-CNN على Faster R-CNN، الذي يكتشف الكائنات ويصنفها ولكنه لا يحدد أشكالها الدقيقة. يعمل Mask R-CNN على تحسين ذلك من خلال تحديد البكسلات الدقيقة التي تشكل كل كائن، مما يسمح بتحليل أكثر تفصيلاً ودقة للصور.

مقارنة بين اكتشاف الكائنات وتجزئة المثيل

شكل 1. مقارنة بين اكتشاف الكائنات وتجزئة المثيلات.

Link to this sectionنظرة على بنية Mask R-CNN وكيفية عمله#

يتبع Mask R-CNN نهجاً خطوة بخطوة لاكتشاف وتجزئة الكائنات بدقة. يبدأ باستخراج الميزات الرئيسية باستخدام شبكة عصبية عميقة (نموذج متعدد الطبقات يتعلم من البيانات)، ثم يحدد مناطق الكائنات المحتملة باستخدام شبكة اقتراح المنطقة (مكون يقترح مناطق الكائنات المحتملة)، وأخيراً يقوم بتحسين هذه المناطق من خلال إنشاء أقنعة تجزئة مفصلة (خطوط عريضة دقيقة للكائنات) تلتقط الشكل الدقيق لكل كائن.

بعد ذلك، سنستعرض كل خطوة للحصول على فكرة أفضل عن كيفية عمل Mask R-CNN.

نظرة عامة على بنية Mask R-CNN

شكل 2. نظرة عامة على بنية Mask R-CNN (المصدر: researchgate.net).

Link to this sectionالبدء باستخراج الميزات#

الخطوة الأولى في بنية Mask R-CNN هي تقسيم الصورة إلى أجزائها الرئيسية حتى يتمكن النموذج من فهم ما بداخلها. فكر في الأمر كما لو كنت تنظر إلى صورة وتلاحظ بشكل طبيعي تفاصيل مثل الأشكال والألوان والحواف. يقوم النموذج بشيء مشابه باستخدام شبكة عصبية عميقة تسمى "العمود الفقري" (غالباً ResNet-50 أو ResNet-101)، والتي تعمل مثل عينيه لمسح الصورة والتقاط التفاصيل الرئيسية.

نظراً لأن الكائنات في الصور يمكن أن تكون صغيرة جداً أو كبيرة جداً، يستخدم Mask R-CNN شبكة هرم الميزات (Feature Pyramid Network). هذا يشبه امتلاك عدسات مكبرة مختلفة تسمح للنموذج برؤية التفاصيل الدقيقة والصورة الأكبر، مما يضمن ملاحظة الكائنات بجميع أحجامها.

بمجرد استخراج هذه الميزات المهمة، ينتقل النموذج بعد ذلك لتحديد مواقع الكائنات المحتملة في الصورة، مما يمهد الطريق لمزيد من التحليل.

Link to this sectionاقتراح مناطق محتملة في الصورة تحتوي على كائنات#

بعد معالجة الصورة لاستخراج الميزات الرئيسية، تتولى شبكة اقتراح المنطقة (Region Proposal Network) المهمة. ينظر هذا الجزء من النموذج إلى الصورة ويقترح المناطق التي من المحتمل أن تحتوي على كائنات.

يقوم بذلك عن طريق إنشاء مواقع كائنات محتملة متعددة تسمى المرساة. تقوم الشبكة بعد ذلك بتقييم هذه المراسي واختيار أكثرها واعدة لمزيد من التحليل. بهذه الطريقة، يركز النموذج فقط على المناطق الأكثر احتمالاً أن تكون مثيرة للاهتمام، بدلاً من فحص كل بقعة في الصورة.

مخطط لشبكة اقتراح المنطقة (RPN)

شكل 3. مثال على شبكة اقتراح المنطقة.

Link to this sectionتعزيز الميزات المستخرجة#

بعد تحديد المناطق الرئيسية، تتمثل الخطوة التالية في تحسين التفاصيل المستخرجة من هذه المناطق. استخدمت النماذج السابقة طريقة تسمى ROI Pooling (تجميع منطقة الاهتمام) لاقتطاع الميزات من كل منطقة، لكن هذه التقنية أدت أحياناً إلى محاذاة خاطئة طفيفة عند تغيير حجم المناطق، مما جعلها أقل فعالية - خاصة بالنسبة للكائنات الصغيرة أو المتداخلة.

يعمل Mask R-CNN على تحسين ذلك باستخدام تقنية تسمى ROI Align (محاذاة منطقة الاهتمام). بدلاً من تقريب الإحداثيات كما يفعل ROI Pooling، يستخدم ROI Align استيفاء ثنائي خطي (bilinear interpolation) لتقدير قيم البكسل بدقة أكبر. الاستيفاء ثنائي الخطي هو طريقة تحسب قيمة بكسل جديدة من خلال حساب متوسط قيم جيرانها الأربعة الأقرب، مما يخلق انتقالات أكثر سلاسة. هذا يحافظ على محاذاة الميزات بشكل صحيح مع الصورة الأصلية، مما يؤدي إلى اكتشاف وتجزئة أكثر دقة للكائنات.

على سبيل المثال، في مباراة كرة قدم، قد يتم الخلط بين لاعبين يقفان بالقرب من بعضهما البعض لأنهما يتداخلان في مربعات الإحاطة الخاصة بهما. يساعد ROI Align في فصلهما عن طريق الحفاظ على أشكالهما متميزة.

مخطط يوضح كيفية استخدام Mask R-CNN لتقنية ROI Align

شكل 4. يستخدم Mask R-CNN تقنية ROI Align.

Link to this sectionتصنيف الكائنات والتنبؤ بأقنعتها#

بمجرد معالجة الصورة بواسطة ROI Align، تكون الخطوة التالية هي تصنيف الكائنات وضبط مواقعها بدقة. ينظر النموذج إلى كل منطقة مستخرجة ويقرر ما هو الكائن الذي تحتوي عليه. ويخصص درجة احتمالية لفئات مختلفة ويختار أفضل تطابق.

في الوقت نفسه، يقوم بتعديل مربعات الإحاطة لتناسب الكائنات بشكل أفضل. قد لا تكون المربعات الأولية موضوعة بشكل مثالي، لذا يساعد هذا في تحسين الدقة من خلال التأكد من أن كل مربع يحيط بالكائن المكتشف بإحكام.

أخيراً، يتخذ Mask R-CNN خطوة إضافية: فهو ينشئ قناع تجزئة مفصل لكل كائن بالتوازي.

Link to this sectionMask R-CNN وتطبيقاته في الوقت الفعلي#

عندما ظهر هذا النموذج، قوبل بالكثير من الحماس من مجتمع الذكاء الاصطناعي وتم استخدامه قريباً في تطبيقات مختلفة. إن قدرته على اكتشاف وتجزئة الكائنات في الوقت الفعلي جعلته مغيراً لقواعد اللعبة عبر مختلف الصناعات.

على سبيل المثال، يعد تتبع الحيوانات المهددة بالانقراض في البرية مهمة صعبة. تتحرك العديد من الأنواع عبر غابات كثيفة، مما يجعل من الصعب على دعاة الحفاظ على البيئة تتبعها. تستخدم الأساليب التقليدية كاميرات المراقبة، والطائرات بدون طيار، وصور الأقمار الصناعية، لكن فرز كل هذه البيانات يدوياً يستغرق وقتاً طويلاً. يمكن أن تؤدي عمليات التحديد الخاطئة والمشاهدات الضائعة إلى إبطاء جهود الحفاظ على البيئة.

من خلال التعرف على ميزات فريدة مثل خطوط النمر، أو بقع الزرافة، أو شكل أذني الفيل، يمكن لـ Mask R-CNN اكتشاف وتجزئة الحيوانات في الصور ومقاطع الفيديو بدقة أكبر. حتى عندما تكون الحيوانات مخفية جزئياً بواسطة الأشجار أو تقف بالقرب من بعضها البعض، يمكن للنموذج فصلها وتحديد كل واحد على حدة، مما يجعل مراقبة الحياة البرية أسرع وأكثر موثوقية.

اكتشاف وتجزئة الحيوانات باستخدام Mask R-CNN

شكل 5. اكتشاف وتجزئة الحيوانات باستخدام Mask R-CNN.

Link to this sectionقيود Mask R-CNN#

على الرغم من أهميته التاريخية في اكتشاف الكائنات وتجزئتها، إلا أن Mask R-CNN يأتي أيضاً مع بعض العيوب الرئيسية. إليك بعض التحديات المتعلقة بـ Mask R-CNN:

طلب حوسبي مرتفع: يعتمد على وحدات معالجة رسومات (GPUs) قوية، مما قد يجعله مكلفاً في التشغيل وبطيئاً عند معالجة كميات كبيرة من البيانات.
سرعة معالجة أبطأ: تجعل عمليته متعددة المراحل أبطأ مقارنة بنماذج الوقت الفعلي الأسرع مثل YOLO، والتي قد لا تكون مثالية للمهام الحساسة للوقت.
الاعتماد على بيانات عالية الجودة: يعمل النموذج بشكل أفضل مع صور واضحة ومصنفة جيداً. الصور الضبابية أو ذات الإضاءة الضعيفة يمكن أن تقلل بشكل كبير من دقته.
تنفيذ معقد: يمكن أن تكون البنية متعددة المراحل صعبة في الإعداد والتحسين، خاصة عند التعامل مع مجموعات بيانات كبيرة أو موارد محدودة.

Link to this sectionمن Mask R-CNN إلى Ultralytics YOLO11#

كان Mask R-CNN رائعاً لمهام التجزئة، لكن العديد من الصناعات كانت تتطلع إلى تبني الرؤية الحاسوبية مع إعطاء الأولوية للسرعة والأداء في الوقت الفعلي. قاد هذا المطلب الباحثين إلى تطوير نماذج من مرحلة واحدة تكتشف الكائنات في تمريرة واحدة، مما أدى إلى تحسين الكفاءة بشكل كبير.

على عكس عملية Mask R-CNN متعددة الخطوات، تركز نماذج الرؤية الحاسوبية من مرحلة واحدة مثل YOLO (You Only Look Once) على مهام الرؤية الحاسوبية في الوقت الفعلي. بدلاً من التعامل مع الاكتشاف والتجزئة بشكل منفصل، يمكن لنماذج YOLO تحليل صورة دفعة واحدة. وهذا يجعلها مثالية لتطبيقات مثل القيادة الذاتية، والرعاية الصحية، والتصنيع، والروبوتات، حيث يكون اتخاذ القرار السريع أمراً بالغ الأهمية.

على وجه الخصوص، يأخذ YOLO11 هذه الخطوة إلى أبعد من ذلك بكونه سريعاً ودقيقاً في آن واحد. فهو يستخدم معلمات أقل بنسبة 22% من YOLOv8m ولكنه لا يزال يحقق دقة متوسطة متوسطة (mAP) أعلى على مجموعة بيانات COCO، مما يعني أنه يكتشف الكائنات بدقة أكبر. تجعل سرعة معالجته المحسنة منه خياراً جيداً لتطبيقات الوقت الفعلي حيث يكون كل ميلي ثانية مهماً.

أداء YOLO11 مقارنة بالنماذج الأخرى

شكل 6. أداء YOLO11 مقارنة بالنماذج الأخرى.

Link to this sectionأبرز النقاط#

بالنظر إلى تاريخ الرؤية الحاسوبية، يُعترف بـ Mask R-CNN كاختراق رئيسي في اكتشاف الكائنات وتجزئتها. فهو يقدم نتائج دقيقة للغاية حتى في الإعدادات المعقدة، بفضل عمليته التفصيلية متعددة المراحل.

ومع ذلك، فإن هذه العملية نفسها تجعله أبطأ مقارنة بنماذج الوقت الفعلي مثل YOLO. مع تزايد الحاجة إلى السرعة والكفاءة، تستخدم العديد من التطبيقات الآن نماذج من مرحلة واحدة مثل Ultralytics YOLO11، والتي توفر اكتشافاً سريعاً ودقيقاً للكائنات. في حين أن Mask R-CNN مهم فيما يتعلق بفهم تطور الرؤية الحاسوبية، فإن الاتجاه نحو حلول الوقت الفعلي يسلط الضوء على الطلب المتزايد على حلول رؤية حاسوبية أسرع وأكثر كفاءة.

انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع رؤية الحاسوب الخاصة بك؟ تحقق من خيارات الترخيص لدينا. اكتشف الذكاء الاصطناعي في الزراعة والذكاء الاصطناعي البصري في الرعاية الصحية من خلال زيارة صفحات الحلول الخاصة بنا!

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

ما هو Mask R-CNN وكيف يعمل؟

Link to this sectionنظرة عامة على Mask R-CNN#

Link to this sectionنظرة على بنية Mask R-CNN وكيفية عمله#

Link to this sectionالبدء باستخراج الميزات#

Link to this sectionاقتراح مناطق محتملة في الصورة تحتوي على كائنات#

Link to this sectionتعزيز الميزات المستخرجة#

Link to this sectionتصنيف الكائنات والتنبؤ بأقنعتها#

Link to this sectionMask R-CNN وتطبيقاته في الوقت الفعلي#

Link to this sectionقيود Mask R-CNN#

Link to this sectionمن Mask R-CNN إلى Ultralytics YOLO11#

Link to this sectionأبرز النقاط#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!