انضم إلينا في نظرة إلى تطور اكتشاف الكائنات. سنركز على كيفية تقدم نماذج YOLO (You Only Look Once) في السنوات الأخيرة.
انضم إلينا في نظرة إلى تطور اكتشاف الكائنات. سنركز على كيفية تقدم نماذج YOLO (You Only Look Once) في السنوات الأخيرة.
الرؤية الحاسوبية هي فرع من فروع الذكاء الاصطناعي (AI) يركز على تعليم الآلات رؤية وفهم الصور ومقاطع الفيديو، على غرار كيفية إدراك البشر للعالم الحقيقي. في حين أن التعرف على الكائنات أو تحديد الإجراءات هو أمر طبيعي بالنسبة للبشر، إلا أن هذه المهام تتطلب تقنيات رؤية حاسوبية محددة ومتخصصة عندما يتعلق الأمر بالآلات. على سبيل المثال، إحدى المهام الرئيسية في الرؤية الحاسوبية هي اكتشاف الكائنات، والتي تتضمن تحديد وتحديد موقع الكائنات داخل الصور أو مقاطع الفيديو.
منذ الستينيات، يعمل الباحثون على تحسين كيفية اكتشاف الكائنات بواسطة أجهزة الكمبيوتر. تضمنت الطرق المبكرة، مثل مطابقة القوالب، تمرير قالب محدد مسبقًا عبر صورة للعثور على التطابقات. على الرغم من أن هذه الأساليب كانت مبتكرة، إلا أنها واجهت صعوبات في التعامل مع التغييرات في حجم الكائن واتجاهه والإضاءة. اليوم، لدينا نماذج متقدمة مثل Ultralytics YOLO11 التي يمكنها اكتشاف حتى الكائنات الصغيرة والمخفية جزئيًا، والمعروفة باسم الكائنات المحجوبة، بدقة مذهلة.
مع استمرار تطور الرؤية الحاسوبية، من المهم أن ننظر إلى الوراء في كيفية تطور هذه التقنيات. في هذه المقالة، سنستكشف تطور اكتشاف الكائنات ونسلط الضوء على تحول نماذج YOLO (You Only Look Once). هيا بنا نبدأ!
قبل الخوض في اكتشاف الكائنات، دعونا نلقي نظرة على كيفية بدء رؤية الحاسوب. تعود أصول رؤية الحاسوب إلى أواخر الخمسينيات وأوائل الستينيات عندما بدأ العلماء في استكشاف كيفية معالجة الدماغ للمعلومات المرئية. في تجارب على القطط، اكتشف الباحثان ديفيد هوبل وتورستن ويزل أن الدماغ يتفاعل مع الأنماط البسيطة مثل الحواف والخطوط. شكل هذا الأساس للفكرة الكامنة وراء استخلاص الميزات - المفهوم الذي يقول بأن الأنظمة المرئية تكتشف وتتعرف على الميزات الأساسية في الصور، مثل الحواف، قبل الانتقال إلى أنماط أكثر تعقيدًا.

في نفس الوقت تقريبًا، ظهرت تقنية جديدة يمكنها تحويل الصور المادية إلى تنسيقات رقمية، مما أثار الاهتمام بكيفية معالجة الآلات للمعلومات المرئية. في عام 1966، دفع مشروع الرؤية الصيفي لمعهد ماساتشوستس للتكنولوجيا (MIT) الأمور إلى الأمام. على الرغم من أن المشروع لم ينجح تمامًا، إلا أنه كان يهدف إلى إنشاء نظام يمكنه فصل المقدمة عن الخلفية في الصور. بالنسبة للكثيرين في مجتمع الذكاء الاصطناعي البصري، يمثل هذا المشروع البداية الرسمية لـ رؤية الحاسوب كمجال علمي.
مع تقدم رؤية الحاسوب في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، تحولت طرق اكتشاف الكائنات من التقنيات الأساسية مثل مطابقة القوالب إلى طرق أكثر تقدمًا. إحدى الطرق الشائعة كانت Haar Cascade، التي أصبحت تستخدم على نطاق واسع لمهام مثل اكتشاف الوجوه. كانت تعمل عن طريق مسح الصور بنافذة منزلقة، والتحقق من ميزات معينة مثل الحواف أو الأنسجة في كل قسم من الصورة، ثم دمج هذه الميزات لاكتشاف الكائنات مثل الوجوه. كانت Haar Cascade أسرع بكثير من الطرق السابقة.

إلى جانب ذلك، تم أيضًا تقديم طرق مثل Histogram of Oriented Gradients (HOG) و Support Vector Machines (SVMs). استخدمت HOG تقنية النافذة المنزلقة لتحليل كيفية تغير الضوء والظلال في أقسام صغيرة من الصورة، مما يساعد على تحديد الكائنات بناءً على أشكالها. ثم قامت SVMs بـ تصنيف هذه الميزات لتحديد هوية الكائن. هذه الطرق حسّنت الدقة ولكنها لا تزال تعاني في البيئات الواقعية وكانت أبطأ مقارنة بتقنيات اليوم.
في عام 2010، أدى ظهور التعلم العميق و الشبكات العصبونية الالتفافية (CNNs) إلى تحول كبير في اكتشاف الكائنات. مكّنت CNNs أجهزة الحاسوب من تعلم الميزات المهمة تلقائيًا من كميات كبيرة من البيانات، مما جعل الاكتشاف أكثر دقة.
كانت النماذج المبكرة مثل R-CNN (الشبكات العصبونية الالتفافية القائمة على المناطق) بمثابة تحسن كبير في الدقة، مما ساعد على تحديد الكائنات بدقة أكبر من الطرق القديمة.
ومع ذلك، كانت هذه النماذج بطيئة لأنها عالجت الصور على مراحل متعددة، مما جعلها غير عملية للتطبيقات في الوقت الفعلي في مجالات مثل السيارات ذاتية القيادة أو المراقبة بالفيديو.
مع التركيز على تسريع الأمور، تم تطوير نماذج أكثر كفاءة. ساعدت نماذج مثل Fast R-CNN و Faster R-CNN من خلال تحسين كيفية اختيار مناطق الاهتمام وتقليل عدد الخطوات اللازمة للاكتشاف. في حين أن هذا جعل اكتشاف الكائنات أسرع، إلا أنه لم يكن سريعًا بما يكفي للعديد من التطبيقات الواقعية التي تحتاج إلى نتائج فورية. دفع الطلب المتزايد على الاكتشاف في الوقت الفعلي إلى تطوير حلول أسرع وأكثر كفاءة يمكنها تحقيق التوازن بين السرعة والدقة.

YOLO هو نموذج اكتشاف الكائنات الذي أعاد تعريف رؤية الحاسوب من خلال تمكين الاكتشاف في الوقت الفعلي لـ كائنات متعددة في الصور ومقاطع الفيديو، مما يجعله فريدًا تمامًا عن طرق الاكتشاف السابقة. بدلاً من تحليل كل كائن يتم اكتشافه على حدة، فإن بنية YOLO تتعامل مع اكتشاف الكائنات كمهمة واحدة، حيث تتنبأ بموقع وفئة الكائنات في وقت واحد باستخدام CNNs.
يعمل النموذج عن طريق تقسيم الصورة إلى شبكة، مع تحمل كل جزء مسؤولية اكتشاف الكائنات في منطقته الخاصة. يقدم تنبؤات متعددة لكل قسم و يقوم بتصفية النتائج الأقل ثقة، مع الاحتفاظ فقط بالنتائج الدقيقة.

إن تقديم YOLO إلى تطبيقات رؤية الحاسوب جعل اكتشاف الكائنات أسرع وأكثر كفاءة من النماذج السابقة. نظرًا لسرعته ودقته، سرعان ما أصبح YOLO خيارًا شائعًا للحلول في الوقت الفعلي في صناعات مثل التصنيع والرعاية الصحية والروبوتات.
هناك نقطة أخرى مهمة يجب ملاحظتها وهي أنه نظرًا لأن YOLO كان مفتوح المصدر، فقد تمكن المطورون والباحثون من تحسينه باستمرار، مما أدى إلى إصدارات أكثر تقدمًا.
تحسنت نماذج YOLO بشكل مطرد بمرور الوقت، بناءً على التطورات في كل إصدار. إلى جانب الأداء الأفضل، جعلت هذه التحسينات النماذج أسهل في الاستخدام للأشخاص ذوي المستويات المختلفة من الخبرة التقنية.
على سبيل المثال، عندما تم تقديم Ultralytics YOLOv5، أصبح نشر النماذج أبسط مع PyTorch، مما سمح لمجموعة واسعة من المستخدمين بالعمل مع الذكاء الاصطناعي المتقدم. لقد جمع بين الدقة وسهولة الاستخدام، مما منح المزيد من الأشخاص القدرة على تنفيذ اكتشاف الكائنات دون الحاجة إلى أن يكونوا خبراء في البرمجة.

واصلت Ultralytics YOLOv8 هذا التقدم من خلال إضافة دعم لمهام مثل تقسيم المثيلات وجعل النماذج أكثر مرونة. أصبح من الأسهل استخدام YOLO للتطبيقات الأساسية والأكثر تعقيدًا، مما يجعله مفيدًا في مجموعة من السيناريوهات.
مع أحدث نموذج، Ultralytics YOLO11، تم إجراء المزيد من التحسينات. من خلال تقليل عدد المعلمات (parameters) مع تحسين الدقة، أصبح الآن أكثر كفاءة للمهام في الوقت الفعلي. سواء كنت مطورًا متمرسًا أو جديدًا في مجال الذكاء الاصطناعي، فإن YOLO11 يقدم نهجًا متقدمًا لاكتشاف الكائنات يسهل الوصول إليه.
يدعم YOLO11، الذي تم إطلاقه في حدث Ultralytics السنوي المختلط، YOLO Vision 2024 (YV24)، نفس مهام رؤية الكمبيوتر التي يدعمها YOLOv8، مثل اكتشاف الكائنات، وتجزئة المثيلات، وتصنيف الصور، و تقدير الوضعيات (pose estimation). لذلك، يمكن للمستخدمين التبديل بسهولة إلى هذا النموذج الجديد دون الحاجة إلى تعديل سير العمل الخاص بهم. بالإضافة إلى ذلك، تجعل البنية المطورة لـ YOLO11 التنبؤات أكثر دقة. في الواقع، يحقق YOLO11m متوسط دقة متوسطة (mAP) أعلى على مجموعة بيانات COCO مع عدد معلمات أقل بنسبة 22٪ من YOLOv8m.
تم تصميم YOLO11 أيضًا ليعمل بكفاءة على مجموعة من المنصات، من الهواتف الذكية والأجهزة الطرفية الأخرى إلى الأنظمة السحابية الأكثر قوة. تضمن هذه المرونة أداءً سلسًا عبر إعدادات الأجهزة المختلفة للتطبيقات في الوقت الفعلي. علاوة على ذلك، فإن YOLO11 أسرع وأكثر كفاءة، مما يقلل من التكاليف الحسابية ويسرع أوقات الاستدلال. سواء كنت تستخدم حزمة Ultralytics Python أو Ultralytics HUB بدون تعليمات برمجية، فمن السهل دمج YOLO11 في سير العمل الحالي.
إن تأثير اكتشاف الكائنات المتقدم على التطبيقات في الوقت الفعلي والذكاء الاصطناعي الطرفي (Edge AI) محسوس بالفعل في مختلف الصناعات. مع اعتماد قطاعات مثل النفط والغاز والرعاية الصحية و البيع بالتجزئة بشكل متزايد على الذكاء الاصطناعي، يستمر الطلب على اكتشاف الكائنات السريع والدقيق في الارتفاع. يهدف YOLO11 إلى تلبية هذا الطلب من خلال تمكين اكتشاف عالي الأداء حتى على الأجهزة ذات القدرة الحاسوبية المحدودة.
مع نمو الذكاء الاصطناعي الطرفي (Edge AI)، من المحتمل أن تصبح نماذج اكتشاف الكائنات مثل YOLO11 أكثر أهمية لاتخاذ القرارات في الوقت الفعلي في البيئات التي تكون فيها السرعة والدقة أمرًا بالغ الأهمية. مع التحسينات المستمرة في التصميم والقدرة على التكيف، يبدو أن مستقبل اكتشاف الكائنات مهيأ لتحقيق المزيد من الابتكارات عبر مجموعة متنوعة من التطبيقات.
لقد قطع اكتشاف الكائنات شوطًا طويلاً، وتطور من طرق بسيطة إلى تقنيات التعلم العميق المتقدمة التي نراها اليوم. كانت نماذج YOLO في قلب هذا التقدم، حيث قدمت اكتشافًا أسرع وأكثر دقة في الوقت الفعلي عبر مختلف الصناعات. يعتمد YOLO11 على هذا الإرث، حيث يحسن الكفاءة ويقلل التكاليف الحسابية ويعزز الدقة، مما يجعله خيارًا موثوقًا به لمجموعة متنوعة من التطبيقات في الوقت الفعلي. مع التطورات المستمرة في الذكاء الاصطناعي ورؤية الكمبيوتر، يبدو مستقبل اكتشاف الكائنات مشرقًا، مع وجود مجال لمزيد من التحسينات في السرعة والدقة والقدرة على التكيف.
هل أنت مهتم بالذكاء الاصطناعي؟ ابق على اتصال مع مجتمعنا لمواصلة التعلم! تحقق من مستودع GitHub الخاص بنا لاكتشاف كيف نستخدم الذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع و الرعاية الصحية. 🚀