تطور اكتشاف الأجسام ونماذج YOLO من Ultralytics
انضم إلينا بينما نلقي نظرة على تطور اكتشاف الأجسام. سنركز على كيفية تقدم نماذج YOLO (You Only Look Once) في السنوات الأخيرة.

رؤية الكمبيوتر هي مجال فرعي من الذكاء الاصطناعي (AI) يركز على تعليم الآلات رؤية وفهم الصور ومقاطع الفيديو، بشكل مشابه لكيفية إدراك البشر للعالم الحقيقي. في حين أن التعرف على الأجسام أو تحديد الإجراءات أمر طبيعي بالنسبة للبشر، إلا أن هذه المهام تتطلب تقنيات رؤية كمبيوتر محددة ومتخصصة عندما يتعلق الأمر بالآلات. على سبيل المثال، إحدى المهام الرئيسية في رؤية الكمبيوتر هي اكتشاف الأجسام، والذي يتضمن تحديد الأجسام وتحديد موقعها داخل الصور أو مقاطع الفيديو.
منذ الستينيات، يعمل الباحثون على تحسين كيفية قدرة أجهزة الكمبيوتر على اكتشاف الأجسام. تضمنت الأساليب المبكرة، مثل مطابقة القوالب، تحريك قالب محدد مسبقًا عبر صورة للعثور على تطابقات. ورغم ابتكارها، واجهت هذه الأساليب صعوبات مع التغيرات في حجم الأجسام واتجاهها والإضاءة. اليوم، لدينا نماذج متقدمة مثل Ultralytics YOLO11 التي يمكنها اكتشاف حتى الأجسام الصغيرة والمخفية جزئيًا، والمعروفة باسم الأجسام المحجوبة، بدقة مذهلة.
مع استمرار تطور رؤية الكمبيوتر، من المهم النظر إلى الوراء في كيفية تطوير هذه التقنيات. في هذه المقالة، سنستكشف تطور اكتشاف الأجسام ونسلط الضوء على تحول نماذج YOLO (You Only Look Once). لنبدأ!
Link to this sectionأصول رؤية الكمبيوتر#
قبل الغوص في اكتشاف الأجسام، دعونا نلقي نظرة على كيفية بدء رؤية الكمبيوتر. تعود أصول رؤية الكمبيوتر إلى أواخر الخمسينيات وأوائل الستينيات عندما بدأ العلماء في استكشاف كيفية معالجة الدماغ للمعلومات المرئية. في تجارب على القطط، اكتشف الباحثان ديفيد هوبل وتورستن ويزل أن الدماغ يتفاعل مع أنماط بسيطة مثل الحواف والخطوط. شكل هذا الأساس للفكرة الكامنة وراء استخراج الميزات - وهو المفهوم القائل بأن الأنظمة المرئية تكتشف وتتعرف على الميزات الأساسية في الصور، مثل الحواف، قبل الانتقال إلى أنماط أكثر تعقيدًا.

الشكل 1. ساعدت معرفة كيفية تفاعل دماغ القطة مع أشرطة الضوء في تطوير استخراج الميزات في رؤية الكمبيوتر.
في نفس الوقت تقريبًا، ظهرت تقنية جديدة يمكنها تحويل الصور المادية إلى تنسيقات رقمية، مما أثار الاهتمام بكيفية معالجة الآلات للمعلومات المرئية. في عام 1966، دفع مشروع صيف رؤية الكمبيوتر التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) الأمور إلى أبعد من ذلك. على الرغم من أن المشروع لم ينجح تمامًا، إلا أنه كان يهدف إلى إنشاء نظام يمكنه فصل المقدمة عن الخلفية في الصور. بالنسبة للكثيرين في مجتمع رؤية الذكاء الاصطناعي، يمثل هذا المشروع البداية الرسمية لـ رؤية الكمبيوتر كمجال علمي.
Link to this sectionفهم تاريخ اكتشاف الأجسام#
مع تقدم رؤية الكمبيوتر في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، تحولت أساليب اكتشاف الأجسام من التقنيات الأساسية مثل مطابقة القوالب إلى مناهج أكثر تقدمًا. كانت إحدى الطرق الشائعة هي Haar Cascade، والتي أصبحت تستخدم على نطاق واسع لمهام مثل اكتشاف الوجوه. كانت تعمل عن طريق مسح الصور باستخدام نافذة منزلقة، والتحقق من ميزات محددة مثل الحواف أو القوام في كل قسم من الصورة، ثم دمج هذه الميزات لاكتشاف الأجسام مثل الوجوه. كانت Haar Cascade أسرع بكثير من الطرق السابقة.

الشكل 2. استخدام Haar Cascade لاكتشاف الوجوه.
إلى جانب ذلك، تم تقديم طرق مثل مدرج تكراري للمدرجات الموجهة (HOG) وآلات ناقل الدعم (SVMs). استخدم HOG تقنية النافذة المنزلقة لتحليل كيفية تغير الضوء والظلال في أجزاء صغيرة من الصورة، مما ساعد في تحديد الأجسام بناءً على أشكالها. ثم قامت SVMs بـ تصنيف هذه الميزات لتحديد هوية الجسم. هذه الطرق حسنت الدقة ولكنها لا تزال تواجه صعوبات في بيئات العالم الحقيقي وكانت أبطأ مقارنة بتقنيات اليوم.
Link to this sectionالحاجة إلى اكتشاف الأجسام في الوقت الفعلي#
في العقد الأول من القرن الحادي والعشرين، أحدث صعود التعلم العميق والشبكات العصبية التلافيفية (CNNs) تحولًا كبيرًا في اكتشاف الأجسام. مكنت شبكات CNN أجهزة الكمبيوتر من تعلم ميزات مهمة تلقائيًا من كميات كبيرة من البيانات، مما جعل الاكتشاف أكثر دقة بكثير.
كانت النماذج المبكرة مثل R-CNN (الشبكات العصبية التلافيفية القائمة على المنطقة) تحسنًا كبيرًا في الدقة، مما ساعد في تحديد الأجسام بدقة أكبر من الأساليب القديمة.
ومع ذلك، كانت هذه النماذج بطيئة لأنها تعالج الصور في مراحل متعددة، مما يجعلها غير عملية للتطبيقات في الوقت الفعلي في مجالات مثل السيارات ذاتية القيادة أو المراقبة بالفيديو.
مع التركيز على تسريع الأمور، تم تطوير نماذج أكثر كفاءة. ساعدت نماذج مثل Fast R-CNN وFaster R-CNN من خلال تحسين كيفية اختيار مناطق الاهتمام وتقليل عدد الخطوات المطلوبة للاكتشاف. وبينما جعل هذا اكتشاف الأجسام أسرع، إلا أنه لم يكن سريعًا بما يكفي للعديد من تطبيقات العالم الحقيقي التي تحتاج إلى نتائج فورية. دفع الطلب المتزايد على الاكتشاف في الوقت الفعلي تطوير حلول أسرع وأكثر كفاءة يمكنها موازنة كل من السرعة والدقة.

الشكل 3. مقارنة سرعات R-CNN و Fast R-CNN و Faster R-CNN.
Link to this sectionنماذج YOLO (You Only Look Once): علامة فارقة#
YOLO هو نموذج اكتشاف أجسام أعاد تعريف رؤية الكمبيوتر من خلال تمكين الاكتشاف في الوقت الفعلي لـ أجسام متعددة في الصور ومقاطع الفيديو، مما يجعله فريدًا تمامًا عن طرق الاكتشاف السابقة. بدلاً من تحليل كل جسم مكتشف على حدة، تتعامل بنية YOLO مع اكتشاف الأجسام كمهمة واحدة، حيث تتنبأ بموقع وفئة الأجسام دفعة واحدة باستخدام شبكات CNN.
يعمل النموذج عن طريق تقسيم الصورة إلى شبكة، حيث يكون كل جزء مسؤولاً عن اكتشاف الأجسام في منطقته الخاصة. يقوم النموذج بإجراء تنبؤات متعددة تنبؤات لكل قسم وتصفية النتائج الأقل ثقة، مع الاحتفاظ بالنتائج الدقيقة فقط.

الشكل 4. نظرة عامة على كيفية عمل YOLO.
جعل تقديم YOLO لـ تطبيقات رؤية الكمبيوتر اكتشاف الأجسام أسرع وأكثر كفاءة بكثير من النماذج السابقة. نظرًا لسرعته ودقته، سرعان ما أصبح YOLO خيارًا شائعًا للحلول في الوقت الفعلي في صناعات مثل التصنيع والرعاية الصحية والروبوتات.
نقطة أخرى مهمة يجب ملاحظتها هي أنه نظرًا لأن YOLO كان مفتوح المصدر، فقد تمكن المطورون والباحثون من تحسينه باستمرار، مما أدى إلى إصدارات أكثر تقدمًا.
Link to this sectionالطريق من YOLO إلى YOLO11#
تحسنت نماذج YOLO بشكل مطرد بمرور الوقت، بناءً على تقدم كل إصدار. إلى جانب الأداء الأفضل، جعلت هذه التحسينات النماذج أسهل في الاستخدام للأشخاص ذوي المستويات المختلفة من الخبرة التقنية.
على سبيل المثال، عندما تم تقديم Ultralytics YOLOv5، أصبح نشر النماذج أكثر بساطة مع PyTorch، مما سمح لمجموعة أوسع من المستخدمين بالعمل مع الذكاء الاصطناعي المتقدم. لقد جمع بين الدقة وسهولة الاستخدام، مما منح المزيد من الناس القدرة على تنفيذ اكتشاف الأجسام دون الحاجة إلى أن يكونوا خبراء في البرمجة.

الشكل 5. تطور نماذج YOLO.
Ultralytics YOLOv8 واصل هذا التقدم من خلال إضافة دعم لمهام مثل تجزئة الأجسام وجعل النماذج أكثر مرونة. أصبح من الأسهل استخدام YOLO للتطبيقات الأساسية والأكثر تعقيدًا، مما يجعله مفيدًا عبر مجموعة من السيناريوهات.
مع أحدث نموذج، Ultralytics YOLO11، تم إجراء المزيد من التحسينات. من خلال تقليل عدد المعلمات مع تحسين الدقة، أصبح الآن أكثر كفاءة لمهام الوقت الفعلي. سواء كنت مطورًا خبيرًا أو جديدًا في الذكاء الاصطناعي، يقدم YOLO11 نهجًا متقدمًا لاكتشاف الأجسام يسهل الوصول إليه.
Link to this sectionالتعرف على YOLO11: ميزات وتحسينات جديدة#
يدعم YOLO11، الذي تم إطلاقه في الحدث الهجين السنوي لـ Ultralytics، YOLO Vision 2024 (YV24)، نفس مهام رؤية الكمبيوتر مثل YOLOv8، مثل اكتشاف الأجسام، وتجزئة الأجسام، وتصنيف الصور، وتقدير الوضعية. لذا، يمكن للمستخدمين التبديل بسهولة إلى هذا النموذج الجديد دون الحاجة إلى تعديل سير عملهم. بالإضافة إلى ذلك، تجعل بنية YOLO11 التي تمت ترقيتها التنبؤات أكثر دقة. في الواقع، يحقق YOLO11m متوسط دقة متوسط (mAP) أعلى على مجموعة بيانات COCO مع عدد معلمات أقل بنسبة 22% من YOLOv8m.
تم تصميم YOLO11 أيضًا للعمل بكفاءة على مجموعة من المنصات، من الهواتف الذكية وأجهزة الحافة الأخرى إلى أنظمة السحابة الأكثر قوة. تضمن هذه المرونة أداءً سلسًا عبر إعدادات الأجهزة المختلفة للتطبيقات في الوقت الفعلي. علاوة على ذلك، يعد YOLO11 أسرع وأكثر كفاءة، مما يقلل من التكاليف الحسابية ويسرع أوقات الاستنتاج. سواء كنت تستخدم حزمة Ultralytics Python أو Ultralytics HUB بدون كود، فمن السهل دمج YOLO11 في سير عملك الحالي.
Link to this sectionمستقبل نماذج YOLO واكتشاف الأجسام#
يتم بالفعل الشعور بتأثير اكتشاف الأجسام المتقدم على تطبيقات الوقت الفعلي وذكاء الحافة عبر الصناعات. مع اعتماد قطاعات مثل النفط والغاز، والرعاية الصحية، والتجزئة بشكل متزايد على الذكاء الاصطناعي، يستمر الطلب على اكتشاف الأجسام السريع والدقيق في الارتفاع. يهدف YOLO11 إلى تلبية هذا الطلب من خلال تمكين اكتشاف عالي الأداء حتى على الأجهزة ذات القوة الحسابية المحدودة.
مع نمو ذكاء الحافة، من المحتمل أن تصبح نماذج اكتشاف الأجسام مثل YOLO11 أكثر أهمية لاتخاذ القرار في الوقت الفعلي في البيئات التي تكون فيها السرعة والدقة أمرًا بالغ الأهمية. مع التحسينات المستمرة في التصميم والقدرة على التكيف، يبدو أن مستقبل اكتشاف الأجسام مهيأ لجلب المزيد من الابتكارات عبر مجموعة متنوعة من التطبيقات.
Link to this sectionأبرز النقاط#
لقد قطع اكتشاف الأجسام شوطًا طويلاً، متطورًا من أساليب بسيطة إلى تقنيات التعلم العميق المتقدمة التي نراها اليوم. كانت نماذج YOLO في قلب هذا التقدم، حيث قدمت اكتشافًا أسرع وأكثر دقة في الوقت الفعلي عبر صناعات مختلفة. يبني YOLO11 على هذا الإرث، محقًا الكفاءة، ومقلصًا التكاليف الحسابية، ومعززًا الدقة، مما يجعله خيارًا موثوقًا لمجموعة متنوعة من التطبيقات في الوقت الفعلي. مع التطورات المستمرة في الذكاء الاصطناعي ورؤية الكمبيوتر، يبدو مستقبل اكتشاف الأجسام مشرقًا، مع وجود مجال لمزيد من التحسينات في السرعة والدقة والقدرة على التكيف.
هل تشعر بالفضول تجاه الذكاء الاصطناعي؟ ابق على اتصال مع مجتمعنا لمواصلة التعلم! تحقق من مستودع GitHub الخاص بنا لاكتشاف كيف نستخدم الذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع والرعاية الصحية. 🚀






