استكشاف الكشف عن الأجسام الصغيرة باستخدام Ultralytics YOLO11
اكتشف كيفYOLO11 Ultralytics YOLO11 اكتشافًا سريعًا ودقيقًا للأجسام الصغيرة عبر تطبيقات واقعية مثل المراقبة والروبوتات.

اكتشف كيفYOLO11 Ultralytics YOLO11 اكتشافًا سريعًا ودقيقًا للأجسام الصغيرة عبر تطبيقات واقعية مثل المراقبة والروبوتات.

يمكن للطائرات بدون طيار المزودة بتقنية Vision AI أن تحلق على ارتفاع مئات الأمتار فوق سطح الأرض، ومع ذلك يُتوقع منها أن detect يظهر على شكل بضع بكسلات فقط في بث الفيديو الخاص بها. في الواقع، هذا تحدٍ شائع في تطبيقات مثل الروبوتات والمراقبة والاستشعار عن بُعد، حيث يجب على الأنظمة تحديد الأجسام الصغيرة جدًا داخل الصورة.
لكن نماذج الكشف عن الأشياء التقليدية قد تواجه صعوبة في القيام بذلك. فالأشياء الصغيرة في الصور ومقاطع الفيديو تمثل معلومات بصرية محدودة للغاية. ببساطة، عندما ينظر النموذج إليها، لا يوجد الكثير من التفاصيل التي يمكن تعلمها أو التعرف عليها.
تحت الغطاء، تعتمد هذه النماذج عادةً على بنية قائمة على الشبكة العصبية التلافيفية (CNN). تمر الصور عبر طبقات الشبكة وتُحول إلى خرائط ميزات أو تمثيلات مبسطة تسلط الضوء على الأنماط ذات الصلة بدلاً من البكسلات الخام.
كلما انتقلت الصورة إلى عمق الشبكة، تصبح خرائط الميزات هذه أصغر. وهذا يجعل الحساب أسرع، ولكنه يعني أيضًا أن التفاصيل الدقيقة قد تختفي.
بالنسبة للأجسام الصغيرة، هذه التفاصيل مهمة جدًا. بمجرد اختفاء هذه التفاصيل، قد يواجه نموذج الرؤية الحاسوبية صعوبة في اكتشاف الجسم، مما قد يؤدي إلى عدم دقة أو عدم اتساق المربعات المحيطة.
تجعل أنظمة الرؤية الحاسوبية الشاملة في الوقت الفعلي هذه المهمة أكثر صعوبة. تساعد الصور عالية الدقة في الحفاظ على التفاصيل، ولكنها تبطئ عملية الاستدلال وتتطلب مزيدًا من GPU . تعمل الدقة المنخفضة بشكل أسرع، ولكن يصبح من الصعب detect الأجسام الصغيرة.
يصبح الأمر بمثابة عملية موازنة مستمرة بين السرعة والدقة وحدود الأجهزة. بفضل التطورات التكنولوجية الحديثة، أصبحت نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 و Ultralytics المرتقب، تم تصميمها لإدارة هذه المفاضلة بشكل أكثر فعالية.

في هذه المقالة، سوف نستكشف أسباب صعوبة اكتشاف الأجسام الصغيرة وكيف YOLO11 يجعلها أسهل. هيا بنا نبدأ!
يعد اكتشاف الأجسام الصغيرة مهمة في مجال الرؤية الحاسوبية، وهو أحد فروع الذكاء الاصطناعي، تركز على تحديد وتحديد مواقع الأجسام التي تشغل جزءًا صغيرًا جدًا من الصورة. غالبًا ما يتم تمثيل هذه الأجسام داخل الصورة بعدد محدود من وحدات البكسل، وهي أصغر وحدات الصورة الرقمية. وهذا يجعل detect أصعب detect الأهداف الأكبر والأكثر وضوحًا (التي غالبًا ما تحتوي على عدد أكبر من وحدات البكسل).
على سبيل المثال، يمكن أن تظهر المركبات في الصور الجوية، والأدوات في أرضية المصنع، أو الأشخاص الذين تلتقطهم كاميرات المراقبة ذات الزاوية الواسعة، كأجسام صغيرة داخل الصورة. من المهم اكتشافها لأنها غالبًا ما تحمل معلومات مهمة، وتعتمد العديد من التطبيقات الواقعية، مثل المراقبة، على اكتشافها لتعمل بشكل صحيح.
عندما يتم تفويت الأجسام الصغيرة، يمكن أن يتأثر أداء النظام واتخاذ القرارات. وتعد مراقبة المركبات الجوية غير المأهولة (UAV) مثالاً جيداً على ذلك، حيث يمكن أن يؤثر تفويت جسم صغير متحرك على الأرض على دقة الملاحة أو التتبع.
كانت الأنظمة السابقة تستخدم ميزات مصنوعة يدويًا وأساليب الرؤية الحاسوبية التقليدية، والتي كانت تواجه صعوبات في المشاهد المزدحمة أو المتنوعة. وحتى اليوم، مع تحسن أداء نماذج التعلم العميق بشكل كبير، لا يزال من الصعب اكتشاف الأهداف الصغيرة عندما تشغل جزءًا صغيرًا فقط من الصورة.
بعد ذلك، دعونا نلقي نظرة على بعض التحديات الشائعة التي تظهر في مختلف السيناريوهات الواقعية عند اكتشاف الأجسام الصغيرة.
تحتوي الأجسام الصغيرة على عدد قليل جدًا من وحدات البكسل، مما يحد من كمية التفاصيل المرئية التي يمكن للنموذج تعلمها خلال مراحل مثل استخراج الميزات. ونتيجة لذلك، يصعب detect أنماط مثل الحواف والأشكال والأنسجة، مما يجعل الأجسام الصغيرة أكثر عرضة للاندماج في الخلفية.
مع انتقال الصور عبر الطبقات التلافيفية لشبكة عصبية، يتم ضغط المعلومات المرئية في وحدات البكسل تدريجياً إلى خرائط ميزات. وهذا يساعد النموذج على الحفاظ على كفاءته، ولكنه يعني أيضاً تلاشي التفاصيل الدقيقة.

بالنسبة للأهداف الصغيرة، قد تختفي الإشارات المهمة قبل أن تتاح لشبكة الكشف فرصة للتصرف. وعندما يحدث ذلك، تصبح عملية تحديد الموقع أقل موثوقية، وقد تتحول المربعات المحيطة أو تتداخل أو تفقد الأهداف تمامًا.
غالبًا ما تثير حالات التداخل تحديات متعلقة بالحجم. يحدث التداخل عندما تكون الأجسام، خاصة الصغيرة منها، مخفية جزئيًا بواسطة أجسام أخرى في المشهد.
هذا يقلل من المساحة المرئية للهدف، مما يحد من المعلومات المتاحة لمكشاف الأجسام. حتى الانسداد البسيط يمكن أن يربك شبكات الكشف، خاصةً عندما يقترن بمدخلات منخفضة الدقة. يمكن رؤية مثال مثير للاهتمام على ذلك في مجموعات بيانات الطائرات بدون طيار مثل VisDrone، حيث قد يتم حجب المشاة أو الدراجات أو المركبات جزئيًا بواسطة المباني أو الأشجار أو الأجسام المتحركة الأخرى.

وبالمثل، فإن تباين الحجم يضيف صعوبة أخرى عندما يبدو الكائن نفسه صغيرًا جدًا أو كبيرًا نسبيًا اعتمادًا على المسافة وموضع الكاميرا. على الرغم من هذه العقبات، يجب أن تتعرف خوارزميات الكشف على هذه الكائنات الصغيرة عبر مستويات مختلفة من الحجم دون أن تفقد دقتها.
يلعب السياق أيضًا دورًا مهمًا في الكشف. على سبيل المثال، تظهر الأجسام الكبيرة عادةً في محيط واضح يوفر إشارات بصرية مفيدة. من ناحية أخرى، غالبًا ما تفتقر الأهداف الصغيرة إلى هذه المعلومات السياقية، مما يجعل التعرف على الأنماط أكثر صعوبة.
تقيس مقاييس التقييم الشائعة، مثل التقاطع على الاتحاد (IoU)، مدى تداخل المربع المحيط المتوقع مع المربع الحقيقي. في حين أن IoU بشكل جيد مع الكائنات الأكبر حجمًا، فإن سلوكه يختلف تمامًا مع الكائنات الصغيرة.
تشغل الكائنات الصغيرة بضع بكسلات فقط، لذا فإن أي تغيير طفيف في المربع المتوقع يمكن أن يؤدي إلى خطأ كبير في النسبة ويقلل بشكل حاد من IoU . وهذا يعني أن الكائنات الصغيرة غالبًا ما تفشل في تلبية IoU القياسية المستخدمة لحساب صحة التنبؤ، حتى عندما يكون الكائن مرئيًا في الصورة.
ونتيجة لذلك، من المرجح أن يتم تصنيف أخطاء تحديد الموقع على أنها إيجابية كاذبة أو سلبية كاذبة. وقد دفعت هذه القيود الباحثين إلى إعادة التفكير في كيفية تقييم أنظمة الكشف عن الأجسامdetect الصغيرةdetect والتعامل معها.
مع سعي الباحثين إلى تحسين عملية الكشف عن الأجسام الصغيرة، أصبح من الواضح أن الحفاظ على المعلومات البصرية وعرضها على مستويات متعددة أمر ضروري. وقد تردد صدى هذه الفكرة في الأبحاث الحديثة التي نشرت على موقع arXiv وفي الأوراق البحثية التي قُدمت في مؤتمرات مثل مؤتمرات IEEE الدولية ومؤتمر الجمعية الأوروبية للرؤية الحاسوبية (ECCV).
مع تقدم الصور في عمق الشبكة العصبية، قد تفقد الأجسام الصغيرة تفاصيلها أو تختفي تمامًا، ولهذا السبب YOLO11 نماذج الرؤية الحاسوبية الحديثة مثل YOLO11 بشكل كبير على تحسين استخراج الميزات. بعد ذلك، دعونا نستعرض المفاهيم الأساسية وراء خرائط الميزات وشبكات هرم الميزات لفهمها بشكل أفضل.
عندما تدخل صورة مدخلة، مثل صورة الاستشعار عن بعد، إلى شبكة عصبية، يتم تحويلها تدريجياً إلى خرائط ميزات. وهي تمثل تمثيلات مبسطة للصورة تبرز الأنماط البصرية مثل الحواف والأشكال والأنسجة.
مع تعمق الشبكة، تصبح خرائط الميزات هذه أصغر حجماً من الناحية المكانية. يساعد هذا التقلص على تشغيل النموذج بكفاءة والتركيز على المعلومات عالية المستوى. ومع ذلك، فإن تقلص خرائط الميزات العميقة وتقلصها يقللان أيضاً من التفاصيل المكانية.

بينما تحتفظ الكائنات الكبيرة بمعلومات بصرية كافية للكشف الدقيق، قد تفقد الأهداف الصغيرة تفاصيل مهمة بعد بضع طبقات شبكية فقط. عندما يحدث ذلك، قد يواجه النموذج صعوبة في التعرف على وجود كائن صغير. هذا هو أحد الأسباب الرئيسية لعدم اكتشاف الكائنات الصغيرة في نماذج الكشف العميق عن الكائنات.
تم إدخال شبكات الهرم المميزة، التي غالبًا ما تسمى FPN، لمعالجة فقدان التفاصيل المكانية، وهي تعمل كوحدة داعمة تجمع المعلومات من طبقات متعددة حتى تتمكن النماذج detect الأجسام detect بشكل أكثر فعالية. تُعرف هذه العملية أيضًا باسم تجميع الميزات ودمج الميزات.
توفر الطبقات السطحية تفاصيل مكانية دقيقة، بينما تضيف الطبقات الأعمق سياقًا دلاليًا، مما يتيح التعلم الفعال للميزات متعددة المستويات. على عكس عملية رفع الدقة البسيطة، التي تعمل ببساطة على تكبير خرائط الميزات، يحافظ FPN على المعلومات المهمة ويحسن اكتشاف الأجسام الصغيرة.
تعتمد الأساليب الحديثة على هذه الفكرة باستخدام دمج الميزات التكيفي والتصميمات المراعية للسياق لتعزيز الكشف عن الأهداف الصغيرة. بمعنى آخر، تساعد شبكة FPN النماذج على رؤية الصورة الكبيرة والتفاصيل الدقيقة في نفس الوقت. هذا التحسين ضروري عندما تكون الأجسام صغيرة.
فيما يلي لمحة عن كيفية تطور نماذج الكشف عن الأشياء وتقدمها بمرور الوقت لكي تصبح أكثر قدرة على detect ذات الأحجام المختلفة، بما في ذلك الأشياء الصغيرة جدًا:
الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل اكتشاف الأجسام الصغيرة، دعونا نلقي نظرة على بعض التطبيقات الواقعية التي YOLO11 تطبيق YOLO11 فيها.
تخيل طائرة بدون طيار تحلق عالياً فوق شارع مزدحم في المدينة. من هذا الارتفاع، تتقلص السيارات والدراجات وحتى الأشخاص إلى بضع بكسلات على الشاشة.
غالبًا ما تلتقط وحدات التصوير الجوي والطائرات بدون طيار مشاهد مثل هذه، حيث تكون الأجسام المهمة صغيرة الحجم ومحاطة بخلفيات مزدحمة، مما يجعل من الصعب على نماذج الرؤية الحاسوبية detect.
في مثل هذه الحالات، YOLO11 يكون YOLO11 خيارًا مثاليًا للنموذج. على سبيل المثال، YOLO11 لطائرة بدون طيار مزودة بنموذج مثل YOLO11 مراقبة حركة المرور في الوقت الفعلي، واكتشاف المركبات والدراجات والمشاة أثناء تحركهم في المشهد، حتى عندما لا يشغل كل كائن سوى جزء صغير من الصورة. وهذا يتيح اتخاذ قرارات أسرع ورؤى أكثر دقة في تطبيقات مثل إدارة حركة المرور والسلامة العامة أو التخطيط الحضري.
غالبًا ما تُستخدم الروبوتات في البيئات التي تتطلب الدقة والتوقيت. في أماكن مثل المستودعات والمصانع والمزارع، قد يحتاج الروبوت إلى التعرف على أشياء صغيرة جدًا، مثل قطعة على خط التجميع أو ملصق على عبوة أو برعم نبات صغير في حقل، والاستجابة بسرعة.
قد يكون اكتشاف الأجسام بهذا الحجم أمرًا معقدًا، خاصةً عندما تظهر على شكل بضع بكسلات فقط في بث الكاميرا أو عندما تحجبها أجسام أخرى جزئيًا. قد يؤدي عدم ملاحظة هذه التفاصيل الصغيرة إلى إبطاء الأتمتة أو التأثير على قدرة الروبوت على إكمال المهمة.
YOLO11 يحدث فرقًا في هذه المواقف. فميزته المحسّنة لاستخراج الملامح والاستدلال السريع تمكّن الروبوتات من detect الأجسام detect في الوقت الفعلي واتخاذ الإجراءات اللازمة على الفور.
يدعم YOLO11 تقسيم المثيلات، مما يساعد الروبوتات على فهم حدود الكائنات ونقاط الإمساك بها بشكل أكثر دقة، بدلاً من تحديد مربعات الحدود العامة فقط. على سبيل المثال، YOLO11 لذراع روبوتية مدمجة مع YOLO11 اكتشاف المكونات الصغيرة على حزام ناقل، segment الدقيق، والتقاطها قبل أن تبتعد عن متناول اليد، مما يساعد النظام على الحفاظ على كفاءته وموثوقيته.
مع وجود العديد من نماذج الرؤية الحاسوبية المتاحة اليوم، قد تتساءل عما يميز Ultralytics YOLO11 .
فيما يلي بعض الأسباب التيYOLO11 Ultralytics YOLO11 خيارًا رائعًا للتطبيقات التي تتطلب اكتشاف الأجسام الصغيرة:
بالإضافة إلى استخدام نموذج مثل YOLO11 يمكن أن تؤثر طريقة إعداد التعليقات التوضيحية ومجموعة البيانات الإجمالية وإجراءات تدريب النموذج بشكل كبير على أداء الكشف.
فيما يلي نظرة عامة سريعة على ما يجب التركيز عليه:
يعد اكتشاف الأجسام الصغيرة أمرًا صعبًا لأن الأهداف الصغيرة تفقد تفاصيلها أثناء انتقال الصور عبر نموذج الرؤية الحاسوبية. YOLO11 طريقة الحفاظ على هذه التفاصيل، مما يجعل اكتشاف الأجسام الصغيرة أكثر موثوقية دون التضحية بالأداء في الوقت الفعلي. يتيح هذا التوازن YOLO11 الاكتشاف الدقيق والفعال في التطبيقات الواقعية.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. اكتشف ابتكارات مثل رؤية الحاسوب في مجال البيع بالتجزئة والذكاء الاصطناعي في صناعة السيارات من خلال زيارة صفحات الحلول الخاصة بنا. لتبدأ البناء باستخدام رؤية الحاسوب اليوم، تحقق من خيارات الترخيص لدينا.