تعرف على كيفية تحسين نموذج mAP الأجسام الصغيرة من خلال نصائح عملية حول جودة البيانات، والتوسيع، واستراتيجيات التدريب، والتقييم، والنشر.
تعرف على كيفية تحسين نموذج mAP الأجسام الصغيرة من خلال نصائح عملية حول جودة البيانات، والتوسيع، واستراتيجيات التدريب، والتقييم، والنشر.
مع استمرار نمو استخدام الذكاء الاصطناعي (AI) والتعلم الآلي والرؤية الحاسوبية، يتم استخدام أنظمة الكشف عن الأجسام في كل مكان، من كاميرات المرور الذكية إلى الطائرات بدون طيار وأدوات تحليل البيع بالتجزئة. غالبًا ما يُتوقع من هذه الأنظمة أن detect من جميع الأحجام، سواء كانت شاحنة كبيرة قريبة من الكاميرا أو مشاة صغيرة بعيدة في المسافة.
عادةً ما يكون اكتشاف الأجسام الكبيرة والواضحة أكثر سهولة. في المقابل، فإن اكتشاف الأجسام الصغيرة أكثر صعوبة.
عندما يشغل كائن ما جزءًا صغيرًا فقط من الصورة، فإن المعلومات البصرية المتاحة للعمل عليها تكون قليلة جدًا. قد يحتوي مشاة بعيدون في بث مروري أو مركبة صغيرة تم التقاطها من منظور جوي على عدد قليل من وحدات البكسل فقط، ولكن هذه الوحدات يمكن أن تحمل معلومات مهمة.
تعتمد نماذج الرؤية الحاسوبية مثلYOLO Ultralytics YOLO على الأنماط البصرية للتعرف على الكائنات، وعندما تكون هذه الأنماط محدودة أو غير واضحة، يتأثر الأداء سلبًا. قد تضيع تفاصيل مهمة أثناء المعالجة، مما يجعل التنبؤات أكثر حساسية لأخطاء تحديد الموقع. حتى التغيير الطفيف في مربع الحدود يمكن أن يحول الكشف الصحيح إلى كشف خاطئ.
تتضح هذه الفجوة عندما ننظر إلى أداء النموذج. تعالج معظم نماذج الكشف والتجزئة الكائنات المتوسطة والكبيرة بشكل جيد، ولكن الكائنات الصغيرة غالبًا ما تقلل من الدقة الإجمالية.
يتم قياس أداء التعلم العميق عادةً باستخدام متوسط الدقة المتوسط( mAP). يعكس هذا المقياس دقة عمليات الكشف ومدى توافق المربعات المتوقعة مع الكائنات الحقيقية.
وهو يجمع بين الدقة، التي توضح عدد الكائنات المتوقعة الصحيحة، والاسترجاع، الذي يوضح عدد الكائنات الفعلية التي تم اكتشافها بنجاح، عبر مستويات ثقة مختلفة وعتبات التقاطع فوق الاتحاد، أو IoU مقياس يقيس مدى تداخل المربع المحيط المتوقع مع المربع الحقيقي).
سبق أن استكشفنا كيفية اكتشاف الأجسام الصغيرة ولماذا يمثل ذلك مشكلة صعبة بالنسبة لنماذج الرؤية الحاسوبية. في هذه المقالة، سنبني على تلك الأسس ونركز على كيفية تحسين mAP وجود أجسام صغيرة. لنبدأ!
عندما يتعلق الأمر بالتطبيقات التي تستخدم أجهزة الكشف عن الأجسام، يتم تعريف الجسم الصغير من خلال المساحة التي يشغلها في الصورة، وليس بالضرورة من خلال مدى صغره بالنسبة للعين البشرية. إذا كان يشغل جزءًا صغيرًا فقط من الصورة، فإنه يحتوي على القليل جدًا من المعلومات البصرية، مما يجعل من الصعب على خوارزمية الرؤية الحاسوبية detect .

مع وجود عدد أقل من البكسلات للعمل بها، قد تصبح التفاصيل المهمة مثل الحواف والأشكال والأنسجة غير واضحة أو قد تضيع بسهولة. أثناء معالجة الصورة بواسطة النموذج، يتم تغيير حجمها وتبسيطها لإبراز الأنماط المفيدة.
في حين أن هذا يساعد النموذج على فهم المشهد بشكل عام، إلا أنه قد يقلل من التفاصيل الدقيقة بشكل أكبر. بالنسبة للأجسام الصغيرة، غالبًا ما تكون هذه التفاصيل ضرورية للكشف الصحيح.
تصبح هذه التحديات أكثر وضوحًا عند النظر إلى مقاييس التقييم. فالأجسام الصغيرة حساسة بشكل خاص لأخطاء تحديد الموقع. حتى صندوق الحدود غير المتوازن قليلاً يمكن أن يقع تحت عتبة التقاطع على الاتحاد ( IoU) المطلوبة.
عندما يحدث ذلك، قد يتم اعتبار التنبؤ الذي يبدو معقولاً غير صحيح. وهذا يقلل من الدقة والاسترجاع، مما يؤدي في النهاية إلى انخفاض متوسط الدقة، أو mAP.
نظرًا لأن هذه العوامل مرتبطة ارتباطًا وثيقًا، فإن تحسين الأداء غالبًا ما يتطلب التفكير في النظام بأكمله. وهذا يعني الموازنة بعناية بين دقة الصورة واستخراج الميزات وتصميم النموذج وإعدادات التقييم بحيث يتم الحفاظ على التفاصيل المرئية الصغيرة وتفسيرها بشكل أفضل.
عندما يتعلق الأمر باكتشاف الأجسام الصغيرة، غالبًا ما تكون جودة مجموعة البيانات هي العامل الأكثر تأثيرًا في الأداء. لا تشغل الأجسام الصغيرة سوى جزء ضئيل من الصورة، مما يعني أن المعلومات المرئية المتاحة للنموذج للتعلم منها قليلة جدًا. ولهذا السبب، تصبح بيانات التدريب مهمة بشكل خاص. إذا لم تتضمن مجموعة البيانات أمثلة واضحة وممثلة كافية، فسيواجه نموذج اكتشاف الأجسام صعوبة في التعرف على الأنماط المتسقة.
تحتوي مجموعات البيانات التي تعمل بشكل جيد في الكشف عن الأجسام الصغيرة عادةً على صور عالية الدقة، وظهور متكرر لأهداف صغيرة، وظروف بصرية متسقة. في حين أن مجموعات البيانات العامة مثل COCO تعد نقاط انطلاق مفيدة، إلا أنها غالبًا لا تتطابق مع حجم أو كثافة أو سياق حالات الاستخدام المحددة في العالم الواقعي. في مثل هذه الحالات، يصبح جمع بيانات التدريب الخاصة بالمجال ضروريًا لتحسين أداء النموذج.
تلعب جودة التعليقات التوضيحية أيضًا دورًا مهمًا. تحدد التعليقات التوضيحية الحقيقة الأساسية من خلال تحديد التسميات الصحيحة للكائنات ومواقع المربعات المحيطة التي يتعلم النموذج توقعها.
بالنسبة للأجسام الصغيرة، يجب رسم المربعات المحيطة بعناية واتساق. حتى الاختلافات الطفيفة في وضع المربعات يمكن أن تؤثر بشكل ملحوظ على دقة التوطين لأن الأجسام الصغيرة حساسة للغاية للتغيرات على مستوى البكسل.
يمكن أن تؤدي التعليقات التوضيحية الضعيفة أو غير المتسقة إلى انخفاض كبير في mAP. إذا تم تصنيف الكائنات بشكل خاطئ، يتعلم النموذج أنماطًا غير صحيحة، مما قد يؤدي إلى زيادة الإيجابيات الخاطئة.
إذا ظهرت كائنات في الصورة ولكنها غير موجودة في الواقع، فقد يتم اعتبار عمليات الكشف الصحيحة على أنها إيجابية خاطئة أثناء التقييم. وكلا الحالتين تؤديان إلى انخفاض الأداء العام.
ومن المثير للاهتمام أن الأبحاث الحديثة تشير إلى أن متوسط الدقة للأجسام الصغيرة غالبًا ما يظل بين 20٪ و 40٪ في المعايير القياسية، وهو أقل بكثير من الأجسام الأكبر حجمًا. وتسلط هذه الفجوة الضوء على أهمية تصميم مجموعة البيانات واتساق التعليقات التوضيحية في دقة الكشف الإجمالية.
بعد أن فهمنا بشكل أفضل أهمية جودة مجموعة البيانات واتساق التعليقات التوضيحية، دعونا نستعرض كيف يمكن لنموذج الكشف عن الكائنات أن يتعلم بشكل أكثر فعالية من البيانات الموجودة. حتى عندما يكون جمع صور إضافية أمرًا صعبًا أو مكلفًا، لا تزال هناك طرق لتحسين الأداء من خلال الاستفادة بشكل أفضل من البيانات المتاحة بالفعل.
أحد أكثر الأساليب العملية هو زيادة البيانات. وله دور مهم بشكل خاص في اكتشاف الأجسام الصغيرة لأن الأجسام الصغيرة توفر إشارات بصرية أقل للنموذج للتعلم منها. من خلال إدخال تغييرات محكومة أثناء التدريب، تساعد الزيادة النموذج على التعميم بشكل أفضل دون الحاجة إلى جمع بيانات جديدة.
يركز التوسيع الفعال للبيانات على الحفاظ على وضوح رؤية الأجسام الصغيرة. يمكن لتقنيات مثل التحكم في تغيير الحجم، واقتصاص الضوء، وتجانب الصور أن تجعل الأجسام الصغيرة تبرز أكثر مع الحفاظ على شكلها ومظهرها. الهدف هو مساعدة النموذج على رؤية الأجسام الصغيرة بشكل أكثر تكرارًا وفي ظروف مختلفة قليلاً، دون تغيير شكلها في المواقف الحقيقية.
ومع ذلك، يجب تطبيق التكبير بحذر. فقد تؤدي بعض التحويلات إلى تقليل وضوح الأجسام الصغيرة أو تغيير مظهرها بطرق غير محتملة في البيانات الحقيقية. وعندما يحدث ذلك، قد يواجه النموذج صعوبة في تعلم حدود الأجسام بدقة.
هناك نوع آخر مثير للاهتمام من زيادة البيانات يزداد شعبية، وهو استخدام الذكاء الاصطناعي التوليدي لإنشاء بيانات تدريب اصطناعية. بدلاً من الاعتماد على الصور التي تم جمعها وتصنيفها يدويًا، يمكن للفرق الآن إنشاء مشاهد واقعية تحاكي بيئات معينة وأحجام كائنات وظروف إضاءة وتغيرات في الخلفية.

هذا النهج مفيد بشكل خاص في الكشف عن الأجسام الصغيرة، حيث قد يكون من الصعب التقاط أمثلة واقعية بشكل متسق. من خلال التحكم في كيفية ظهور الأجسام الصغيرة في الصور الاصطناعية، مثل ضبط الحجم والكثافة والموضع، يمكن تعريض النماذج لمجموعة أوسع من سيناريوهات التدريب.
عند دمجها بعناية مع البيانات الحقيقية، يمكن أن تؤدي الزيادة الاصطناعية إلى تحسين متانة النموذج، وتقليل تكاليف جمع البيانات، ودعم تحسينات الأداء الأكثر استهدافًا.
بالإضافة إلى جودة مجموعة البيانات واتساق التعليقات التوضيحية، تؤثر خيارات تدريب النموذج أيضًا بشكل كبير على أداء الكشف عن الأجسام الصغيرة.
فيما يلي بعض الاستراتيجيات التدريبية الرئيسية التي يجب أخذها في الاعتبار:
بينما يمكنك استخدام نموذج عام للكشف عن الأجسام لمهام الأجسام الصغيرة، هناك أيضًا بنى نماذج مصممة خصيصًا لتحسين الكشف عن الأجسام الصغيرة. على سبيل المثال، هناك متغيرات نموذج P2 من Ultralytics YOLOv8 التي تم تحسينها للحفاظ على التفاصيل المكانية الدقيقة.
YOLOv8 الصور بمقاييس متعددة عن طريق تقليصها تدريجياً كلما تقدمت في الشبكة. وهذا يساعد النموذج على فهم المشهد العام، ولكنه يقلل أيضاً من التفاصيل الدقيقة.
عندما يكون الكائن صغيرًا جدًا بالفعل، قد تختفي المعلومات البصرية المهمة أثناء هذه العملية.YOLOv8 متغير P2 من Ultralytics YOLOv8 هذه المشكلة باستخدام خطوة 2 في هرم الميزات الخاص به.
الهرم المميز هو جزء من النموذج الذي يحلل الصورة بدقة داخلية متعددة بحيث يمكنه detect بأحجام مختلفة. مع خطوة 2، يتم تقليل الصورة بشكل تدريجي في هذه المرحلة، مما يسمح بالحفاظ على المزيد من التفاصيل الأصلية على مستوى البكسل.
نظرًا للحفاظ على المزيد من التفاصيل المكانية، تحتفظ الكائنات الصغيرة بهيكل أكثر وضوحًا داخل الشبكة. وهذا يسهل على النموذج تحديد detect التي تشغل بضع بكسلات فقط detect مما يساعد على تحسين mAP للكائنات الصغيرة.
في حين أن متوسط الدقة المعدل يلخص الأداء العام للنموذج، إلا أنه لا يظهر دائمًا مدى جودة تعامل النموذج مع الكائنات ذات الأحجام المختلفة. بالنسبة للكائنات الصغيرة، غالبًا ما يكون الأداء مقيدًا بدقة التوطين بدلاً من التصنيف وحده، مما يعني أن التغيرات الطفيفة في مربع الحدود يمكن أن تؤثر بشكل كبير على النتائج.
بمعنى آخر، قد يحدد النموذج فئة الكائن بشكل صحيح، ولكن إذا كان المربع المحيط المتوقع غير متوافق قليلاً، فقد يُعتبر الكشف غير صحيح. نظرًا لأن الكائنات الصغيرة تغطي عددًا قليلاً من وحدات البكسل، فإن أي تغيير طفيف في موضع المربع يمكن أن يقلل بشكل كبير من التداخل بين المربع المتوقع والحقيقة الأساسية. ونتيجة لذلك، يمكن أن تنخفض درجات التقييم حتى عندما يتم تحديد الكائن بشكل صحيح.

نهج أكثر إفادة هو تقييم الأداء حسب حجم الكائن. تبلغ معظم المعايير المرجعية الأكثر استخدامًا عن متوسط الدقة بشكل منفصل للكائنات الصغيرة والمتوسطة والكبيرة.
يوفر هذا التحليل الخاص بالحجم رؤية أوضح للمجالات التي يحقق فيها النموذج أداءً جيدًا والمجالات التي يواجه فيها صعوبات. في الممارسة العملية، غالبًا ما يتخلف AP للأجسام الصغيرة عن mAP الإجمالي، مما يسلط الضوء على تحديات تحديد الموقع التي قد لا تكون واضحة في المقاييس المجمعة.
غالبًا ما يتغير أداء النموذج عند الانتقال من بيئات الاختبار الخاضعة للرقابة إلى النشر في العالم الحقيقي. تؤدي عوامل مثل دقة الصورة وسرعة المعالجة والأجهزة المتاحة إلى حدوث تغييرات تؤثر بشكل مباشر على اكتشاف الأجسام الصغيرة.
على سبيل المثال، يمكن أن تؤدي زيادة دقة الإدخال إلى تحسين mAP للأجسام الصغيرة mAP الأهداف الصغيرة تشغل عددًا أكبر من وحدات البكسل وتحتفظ بمزيد من التفاصيل. ومع ذلك، تؤدي الدقة العالية أيضًا إلى زيادة استخدام الذاكرة ووقت المعالجة. وهذا يمكن أن يبطئ الاستدلال ويزيد من تكاليف التشغيل.

تلعب اختيارات الأجهزة دورًا رئيسيًا في إدارة هذه المفاضلات. تتيح وحدات معالجة الرسومات (GPU) الأكثر قوة نماذج أكبر ومعالجة أسرع، ولكن بيئات النشر، وخاصة الأجهزة الطرفية، غالبًا ما تكون موارد الحوسبة والذاكرة فيها محدودة.
تضيف التطبيقات في الوقت الفعلي قيدًا آخر: قد يتطلب الحفاظ على زمن انتقال منخفض تقليل حجم النموذج أو دقة الإدخال، مما قد يؤثر سلبًا على استرجاع الكائنات الصغيرة. في النهاية، تتطلب قرارات النشر تحقيق التوازن بين أداء الكشف وقيود الأجهزة ومتطلبات السرعة والتكلفة الإجمالية.
يتطلب تحسين اكتشاف الأجسام الصغيرة اتباع نهج عملي ومنظم، خاصة عند العمل في بيئات واقعية. فيما يلي نظرة عامة على الخطوات الرئيسية التي يجب مراعاتها:
يتطلب تحسين mAP الصغيرة اتباع نهج منظم وقائم على البيانات بدلاً من التعديلات العشوائية. تأتي التحسينات الحقيقية من الجمع بين البيانات الجيدة والتعليقات التوضيحية المتسقة والتدريب الدقيق وطرق التقييم الصحيحة. في المشاريع الواقعية، يؤدي الاختبار المستمر والتغييرات الصغيرة القابلة للقياس إلى تحسين كشف الأجسام الصغيرة وزيادة موثوقيته بمرور الوقت.
انضم إلى مجتمعنا المتنامي واستكشف مستودع GitHub الخاص بنا للحصول على موارد عملية في مجال الذكاء الاصطناعي. لبدء البناء باستخدام الذكاء الاصطناعي البصري اليوم، استكشف خيارات الترخيص المتاحة لدينا. تعرف على كيفية قيام الذكاء الاصطناعي في مجال الزراعة بتحويل الزراعة وكيفية قيام الذكاء الاصطناعي البصري في مجال الروبوتات بتشكيل المستقبل من خلال زيارة صفحات الحلول الخاصة بنا.