اكتشف سرعة وكفاءة كاشفات الكائنات ذات المرحلة الواحدة مثل YOLO، المثالية للتطبيقات في الوقت الفعلي مثل الروبوتات والمراقبة.
أجهزة الكشف عن الكائنات ذات المرحلة الواحدة هي فئة من نماذج التعلم العميق المصممة للسرعة والكفاءة في رؤية الكمبيوتر. إنها تقوم بتحديد موقع الكائن وتصنيفه في تمريرة موحدة واحدة للشبكة العصبية. يتناقض هذا مع نظيراتها الأكثر تعقيدًا، أجهزة الكشف عن الكائنات ذات المرحلتين، والتي تقسم المهمة إلى خطوتين متميزتين. من خلال معالجة اكتشاف الكائنات كمشكلة انحدار مباشرة، تتوقع النماذج ذات المرحلة الواحدة مربعات إحاطة واحتمالات الفئة مباشرة من ميزات الصورة، مما يجعلها سريعة بشكل استثنائي ومناسبة للتطبيقات التي تتطلب الاستدلال في الوقت الفعلي.
يقوم الكاشف أحادي المرحلة بمعالجة صورة كاملة مرة واحدة من خلال شبكة عصبونية التفافية (CNN) واحدة. تم تصميم بنية الشبكة لتنفيذ عدة مهام في وقت واحد. أولاً، يقوم العمود الفقري للشبكة بتنفيذ استخراج الميزات، وإنشاء تمثيلات غنية للصورة المدخلة بمقاييس مختلفة. ثم يتم تغذية هذه الميزات في رأس كشف متخصص.
هذا الجزء مسؤول عن توقع مجموعة من المربعات المحيطة (bounding boxes)، ودرجة ثقة (confidence) لكل مربع تشير إلى وجود كائن، واحتمالية انتماء كل كائن إلى فئة معينة. تحدث هذه العملية بأكملها في تمريرة أمامية واحدة، وهو المفتاح لسرعتها العالية. تُستخدم تقنيات مثل تثبيط الحد الأقصى غير (non-maximum suppression (NMS) بعد ذلك لتصفية الاكتشافات الزائدة والمتداخلة لإنتاج الإخراج النهائي. يتم تدريب النماذج باستخدام دالة خسارة (loss function) متخصصة تجمع بين خسارة التوطين (مدى دقة المربع المحيط) وخسارة التصنيف (مدى دقة توقع الفئة).
يكمن التمييز الأساسي في المنهجية. تم تصميم أجهزة الكشف ذات المرحلة الواحدة للسرعة والبساطة، بينما تعطي أجهزة الكشف ذات المرحلتين الأولوية للدقة، على الرغم من أن هذا التمييز أصبح أقل وضوحًا مع النماذج الأحدث.
تم تطوير العديد من البنى المؤثرة ذات المرحلة الواحدة، ولكل منها مساهمات فريدة:
لقد جعلت سرعة وكفاءة أجهزة الكشف ذات المرحلة الواحدة لا غنى عنها في العديد من التطبيقات المدفوعة بالذكاء الاصطناعي:
الميزة الأساسية لأجهزة الكشف ذات المرحلة الواحدة هي سرعتها المذهلة، والتي تتيح اكتشاف الكائنات في الوقت الفعلي على مجموعة متنوعة من الأجهزة، بما في ذلك أجهزة الذكاء الاصطناعي الطرفية منخفضة الطاقة مثل NVIDIA Jetson أو Raspberry Pi. كما أن بنيتها الأبسط والشاملة تجعلها أسهل في التدريب والنشر باستخدام أطر عمل مثل PyTorch أو TensorFlow.
تاريخيًا، كان القيد الرئيسي هو انخفاض الدقة مقارنةً بأجهزة الكشف على مرحلتين، خاصةً عند التعامل مع الكائنات الصغيرة جدًا أو المسدودة بشدة. ومع ذلك، فإن التطورات الأخيرة في بنية النموذج وتقنيات التدريب، كما هو موضح في نماذج مثل YOLO11، قد قللت بشكل كبير من فجوة الأداء هذه، مما يوفر مزيجًا قويًا من السرعة والدقة العالية لمجموعة واسعة من مهام رؤية الكمبيوتر. تعمل منصات مثل Ultralytics HUB على تبسيط عملية تدريب النماذج المخصصة لتلبية احتياجات محددة.