تعرف على RCNN وتأثيرها على اكتشاف الكائنات. سنغطي مكوناتها الرئيسية وتطبيقاتها ودورها في تطوير تقنيات مثل Fast RCNN و YOLO.
تعرف على RCNN وتأثيرها على اكتشاف الكائنات. سنغطي مكوناتها الرئيسية وتطبيقاتها ودورها في تطوير تقنيات مثل Fast RCNN و YOLO.
اكتشاف الأجسام هو مهمة رؤية حاسوبية يمكنها التعرف على الأجسام وتحديد موقعها في الصور أو مقاطع الفيديو لتطبيقات مثل القيادة الذاتية، و المراقبة، و التصوير الطبي. اعتمدت طرق اكتشاف الأجسام السابقة، مثل كاشف Viola-Jones ومدرج التدرجات الموجهة (HOG) مع آلات المتجهات الداعمة (SVM)، على الميزات المصممة يدويًا والنوافذ المنزلقة. غالبًا ما كافحت هذه الطرق لاكتشاف الأجسام بدقة في المشاهد المعقدة التي تحتوي على أجسام متعددة بأشكال وأحجام مختلفة.
لقد غيرت الشبكات العصبونية الالتفافية القائمة على المناطق (R-CNN) الطريقة التي نتعامل بها مع الكشف عن الكائنات. إنه معلم هام في تاريخ الرؤية الحاسوبية. لفهم كيف ظهرت نماذج مثل YOLOv8، نحتاج أولاً إلى فهم نماذج مثل R-CNN.
تم إنشاء نموذج R-CNN بواسطة روس جيرشيك وفريقه، ويقوم بإنشاء مقترحات للمناطق، واستخراج الميزات باستخدام شبكة عصبونية التفافية (CNN) مدربة مسبقًا، وتصنيف الكائنات، وتحسين الصناديق المحيطة. على الرغم من أن ذلك قد يبدو شاقًا، إلا أنه بحلول نهاية هذه المقالة، سيكون لديك فهم واضح لكيفية عمل R-CNN وسبب تأثيره الكبير. هيا نلقي نظرة!
تتضمن عملية اكتشاف الكائنات في نموذج R-CNN ثلاث خطوات رئيسية: إنشاء مقترحات المنطقة واستخراج الميزات وتصنيف الكائنات مع تحسين مربعاتها المحيطة. دعنا نسير في كل خطوة.

في الخطوة الأولى، يقوم نموذج R-CNN بمسح الصورة لإنشاء العديد من مقترحات المناطق. مقترحات المناطق هي مناطق محتملة قد تحتوي على كائنات. تُستخدم طرق مثل البحث الانتقائي للنظر في جوانب مختلفة من الصورة، مثل اللون والملمس والشكل، وتقسيمها إلى أجزاء مختلفة. يبدأ البحث الانتقائي بتقسيم الصورة إلى أجزاء أصغر، ثم دمج الأجزاء المتشابهة لتشكيل مناطق اهتمام أكبر. تستمر هذه العملية حتى يتم إنشاء حوالي 2000 اقتراح منطقة.

تساعد مقترحات المناطق هذه في تحديد جميع المواقع المحتملة التي قد يكون فيها كائن ما. في الخطوات التالية، يمكن للنموذج معالجة المناطق الأكثر صلة بكفاءة من خلال التركيز على هذه المناطق المحددة بدلاً من الصورة بأكملها. إن استخدام مقترحات المناطق يوازن بين الشمولية والكفاءة الحسابية.
تتمثل الخطوة التالية في عملية الكشف عن الكائنات في نموذج R-CNN في استخراج الميزات من مقترحات المناطق. يتم تغيير حجم كل اقتراح منطقة إلى حجم ثابت تتوقعه الشبكة العصبونية التفافية (CNN) (على سبيل المثال، 224 × 224 بكسل). يساعد تغيير الحجم الشبكة العصبونية التفافية (CNN) على معالجة كل اقتراح بكفاءة. قبل الالتواء، يتم توسيع حجم كل اقتراح منطقة قليلاً ليشمل 16 بكسل من السياق الإضافي حول المنطقة لتوفير المزيد من المعلومات المحيطة لاستخراج أفضل للميزات.
بمجرد تغيير حجمها، يتم تغذية مقترحات المناطق هذه في شبكة عصبونية التفافية (CNN) مثل AlexNet، والتي عادةً ما تكون مدربة مسبقًا على مجموعة بيانات كبيرة مثل ImageNet. تعالج الشبكة العصبونية التفافية (CNN) كل منطقة لاستخراج متجهات ميزات عالية الأبعاد تلتقط تفاصيل مهمة مثل الحواف والقوام والأنماط. تكثف متجهات الميزات هذه المعلومات الأساسية من المناطق. إنها تحول بيانات الصورة الأولية إلى تنسيق يمكن للنموذج استخدامه لمزيد من التحليل. يعتمد التصنيف الدقيق وتحديد مواقع الكائنات في المراحل التالية على هذا التحويل الحاسم للمعلومات المرئية إلى بيانات ذات معنى.

الخطوة الثالثة هي تصنيف الكائنات داخل هذه المناطق. وهذا يعني تحديد الفئة أو الصنف لكل كائن تم العثور عليه داخل المقترحات. ثم يتم تمرير متجهات الميزات المستخرجة من خلال مصنف تعلم الآلة.
في حالة R-CNN، تُستخدم آلات المتجهات الداعمة (SVMs) بشكل شائع لهذا الغرض. يتم تدريب كل SVM للتعرف على فئة كائن معينة من خلال تحليل متجهات الميزات وتحديد ما إذا كان هناك منطقة معينة تحتوي على مثيل لتلك الفئة. بشكل أساسي، لكل فئة كائن، يوجد مصنف مخصص يتحقق من كل اقتراح منطقة لهذا الكائن المحدد.
أثناء التدريب، يتم تزويد المصنفات ببيانات مصنفة مع عينات إيجابية وسلبية:
تتعلم المصنفات التمييز بين هذه العينات. يزيد انحدار المربع المحيط من تحسين موضع وحجم الكائنات المكتشفة عن طريق تعديل المربعات المحيطة المقترحة في البداية لتتناسب بشكل أفضل مع حدود الكائن الفعلي. يمكن لنموذج R-CNN تحديد الكائنات وتحديد موقعها بدقة من خلال الجمع بين التصنيف وانحدار المربع المحيط.

بعد خطوات التصنيف وانحدار المربع المحيط، غالبًا ما يُنشئ النموذج مربعات محيطة متداخلة متعددة لنفس الكائن. يتم تطبيق Non-Maximum Suppression (NMS) لتحسين هذه الاكتشافات، مع الاحتفاظ بالمربعات الأكثر دقة. يزيل النموذج المربعات الزائدة والمتداخلة عن طريق تطبيق NMS ويحتفظ فقط بالاكتشافات الأكثر ثقة.
يعمل NMS عن طريق تقييم درجات الثقة (التي تشير إلى مدى احتمالية وجود كائن تم اكتشافه بالفعل) لجميع مربعات الإحاطة وقمع تلك التي تتداخل بشكل كبير مع المربعات ذات الدرجات الأعلى.

إليك تحليل لخطوات NMS:
لجمع كل شيء معًا، يكتشف نموذج R-CNN الكائنات عن طريق إنشاء مقترحات المنطقة، واستخراج الميزات باستخدام CNN، وتصنيف الكائنات وتحسين مواضعها باستخدام انحدار المربع المحيط، واستخدام Non-Maximum Suppression (NMS) مع الاحتفاظ فقط بالاكتشافات الأكثر دقة.
يعد R-CNN نموذجًا بارزًا في تاريخ اكتشاف الكائنات لأنه قدم نهجًا جديدًا أدى إلى تحسين الدقة والأداء بشكل كبير. قبل R-CNN، كانت نماذج اكتشاف الكائنات تكافح لتحقيق التوازن بين السرعة والدقة. تسمح طريقة R-CNN لتوليد مقترحات المنطقة واستخدام CNNs لاستخراج الميزات بتحديد دقيق وتحديد الكائنات داخل الصور.
مهد R-CNN الطريق لنماذج مثل Fast R-CNN و Faster R-CNN و Mask R-CNN، مما زاد من الكفاءة والدقة. من خلال الجمع بين التعلم العميق والتحليل القائم على المنطقة، وضع R-CNN معيارًا جديدًا في هذا المجال وفتح إمكانيات لمختلف التطبيقات الواقعية.
من حالات الاستخدام الشيقة لـ R-CNN في التصوير الطبي. تم استخدام نماذج R-CNN للكشف عن أنواع مختلفة من الأورام وتصنيفها، مثل أورام الدماغ، في الفحوصات الطبية مثل التصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب. يؤدي استخدام نموذج R-CNN في التصوير الطبي إلى تحسين دقة التشخيص ويساعد أخصائيي الأشعة على تحديد الأورام الخبيثة في مرحلة مبكرة. يمكن لقدرة R-CNN على اكتشاف حتى الأورام الصغيرة والمبكرة أن تحدث فرقًا كبيرًا في علاج وتشخيص أمراض مثل السرطان.

يمكن تطبيق نموذج R-CNN على مهام التصوير الطبي الأخرى بالإضافة إلى الكشف عن الأورام. على سبيل المثال، يمكنه تحديد الكسور واكتشاف أمراض الشبكية في فحوصات العين وتحليل صور الرئة للكشف عن حالات مثل الالتهاب الرئوي و COVID-19. بغض النظر عن المشكلة الطبية، يمكن أن يؤدي الكشف المبكر إلى نتائج أفضل للمرضى. من خلال تطبيق دقة R-CNN في تحديد وتحديد مواقع الحالات الشاذة، يمكن لمقدمي الرعاية الصحية تحسين موثوقية وسرعة التشخيصات الطبية. مع تبسيط اكتشاف الكائنات لعملية التشخيص، يمكن للمرضى الاستفادة من خطط علاج دقيقة وفي الوقت المناسب.
في حين أن R-CNN مثير للإعجاب، إلا أن له بعض العيوب، مثل التعقيد الحسابي العالي وأوقات الاستدلال البطيئة. هذه العيوب تجعل نموذج R-CNN غير مناسب للتطبيقات في الوقت الفعلي. يمكن أن يؤدي فصل مقترحات المنطقة والتصنيفات إلى خطوات متميزة إلى أداء أقل كفاءة.
على مر السنين، ظهرت العديد من نماذج الكشف عن الكائنات التي عالجت هذه المخاوف. يجمع Fast R-CNN بين مقترحات المناطق واستخراج ميزات CNN في خطوة واحدة، مما يسرع العملية. يقدم Faster R-CNN شبكة اقتراح المنطقة (RPN) لتبسيط إنشاء الاقتراحات، بينما يضيف Mask R-CNN تقسيمًا على مستوى البكسل لعمليات كشف أكثر تفصيلاً.

في نفس وقت Faster R-CNN تقريبًا، بدأت سلسلة YOLO (You Only Look Once) في تطوير الكشف عن الأجسام في الوقت الفعلي. تتنبأ نماذج YOLO بالمربعات المحيطة واحتمالات الفئات في تمريرة واحدة عبر الشبكة. على سبيل المثال، يوفر Ultralytics YOLOv8 دقة وسرعة محسّنتين مع ميزات متقدمة للعديد من مهام الرؤية الحاسوبية.
لقد غيّر RCNN قواعد اللعبة في رؤية الكمبيوتر، موضحًا كيف يمكن للتعلم العميق أن يغير اكتشاف الكائنات. ألهم نجاحه العديد من الأفكار الجديدة في هذا المجال. على الرغم من ظهور نماذج أحدث مثل Faster R-CNN و YOLO لإصلاح عيوب RCNN، إلا أن مساهمته تعد علامة فارقة ضخمة من المهم تذكرها.
مع استمرار البحث، سنرى نماذج أفضل وأسرع للكشف عن الكائنات. لن تؤدي هذه التطورات إلى تحسين فهم الآلات للعالم فحسب، بل ستؤدي أيضًا إلى التقدم في العديد من الصناعات. مستقبل الكشف عن الكائنات يبدو مثيرًا!
هل تريد الاستمرار في استكشاف الذكاء الاصطناعي؟ كن جزءًا من مجتمع Ultralytics! استكشف مستودع GitHub الخاص بنا لمشاهدة أحدث ابتكاراتنا في مجال الذكاء الاصطناعي. تحقق من حلول الذكاء الاصطناعي الخاصة بنا التي تغطي قطاعات مختلفة مثل الزراعة و التصنيع. انضم إلينا للتعلم والتقدم!