Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الكاشفات المستندة إلى المرساة

اكتشف كيف تستخدم أجهزة الكشف القائمة على المراسي مربعات تحديد محددة مسبقًا للكشف عن الكائنات. تعرف على آلياتها الأساسية وحالات استخدامها في العالم الواقعي وكيف تقارن بأحدث أجهزة Ultralytics الأسرع.

تعد أجهزة الكشف القائمة على المراسي فئة أساسية من نماذج الكشف عن الكائنات في الرؤية الحاسوبية التي تستخدم مجموعة من المربعات المحددة مسبقًا لتحديد موقع classify . بدلاً من محاولة توقع إحداثيات كائن من نقطة الصفر، تبدأ هذه الأنظمة بقوالب مرجعية ثابتة تُعرف باسم مربعات المراسي. ثم يتم تدريب الشبكة العصبية على تحديد أي من هذه القوالب يتطابق بشكل أفضل مع كائن في الصورة وحساب الإزاحة المحددة — التعديلات في الموضع والحجم — اللازمة لمحاذاة المرساة بشكل مثالي مع الهدف. يحول هذا النهج المشكلة الصعبة المتمثلة في التنبؤ بالإحداثيات العشوائية إلى مهمة انحدار أكثر استقرارًا، والتي كانت اختراقًا رئيسيًا في تطوير بنى التعلم العميق (DL) المبكرة مثل Faster R-CNN و SSD.

كيف تعمل الآليات القائمة على المراسي

تدور العملية الأساسية للكاشف القائم على المرجع حول تقسيم الصورة المدخلة إلى شبكة كثيفة. في كل خلية من هذه الشبكة، يولد النموذج عدة مربعات مرجعية بمقاييس ونسب عرض إلى ارتفاع متفاوتة لأخذ أشكال الأجسام المختلفة في الاعتبار، مثل المشاة طوال القامة أو المركبات العريضة. مع مرور بيانات الصورة عبر العمود الفقري للنموذج، تستخرج الشبكة ميزات غنية لأداء مهمتين متزامنتين:

  1. التصنيف: يخصص النموذج درجة احتمالية لكل مرساة، ويتنبأ بما إذا كانت تحتوي على فئة معينة من الأشياء (مثل "سيارة" أو "كلب") أو أنها مجرد ضوضاء في الخلفية.
  2. انحدار الصندوق: بالنسبة للمثبتات التي تم تحديدها على أنها تحتوي على كائن، تتنبأ الشبكة بعوامل تصحيح لتحسين مركز المثبت x, y الإحداثيات والعرض والارتفاع، مما ينتج عنه مربع الإحاطة.

أثناء تدريب النموذج، تستخدم هذه الكواشف مقياسًا يسمى Intersection over Union (IoU) لمطابقة المراسي المحددة مسبقًا مع تسميات الحقيقة الأساسية المتوفرة في مجموعة البيانات. يتم التعامل مع المراسي ذات التداخل العالي كعينات إيجابية. نظرًا لأن هذه العملية تولد آلاف الاكتشافات المحتملة، يتم تطبيق خوارزمية تصفية تُعرف باسم Non-Maximum Suppression (NMS) أثناء الاستدلال لإزالة المربعات الزائدة والاحتفاظ فقط بالتنبؤ الأكثر دقة لكل كائن.

مقارنة مع أجهزة الكشف الخالية من المثبتات

بينما كانت الطرق القائمة على المثبتات هي المعيار السائد لسنوات، تطور هذا المجال نحو أجهزة الكشف الخالية من المثبتات. فهم الاختلاف أمر حيوي للممارسين المعاصرين.

  • قائمة على المراسي: نماذج مثل YOLOv5 و RetinaNet الأصلي تعتمد على التكوين اليدوي أو خوارزميات التجميع مثل تجميع k-means لتحديد أفضل أحجام المراسي لمجموعة البيانات. وهذا يوفر الاستقرار ولكنه قد يكون صارمًا إذا كانت الأشياء تختلف بشكل كبير في الشكل.
  • بدون مرساة: غالبًا ما تزيل البنى الحديثة، بما في ذلك YOLO26، مرحلة المرساة بالكامل. فهي تتنبأ بمراكز الكائنات وأحجامها مباشرةً من بكسلات خريطة الميزات، مما يقلل من العبء الحسابي ويبسط البحث عن المعلمات الفائقة. عادةً ما يكون هذا النهج "الشامل" أسرع وأسهل في التدريب على بيانات متنوعة.

تطبيقات واقعية

لا تزال المنطق القائم على المرجع ذو صلة في العديد من أنظمة الإنتاج القديمة والمتخصصة حيث تكون أشكال الكائنات متوقعة ومتسقة.

  • مراقبة حركة المرور: في أنظمة النقل الذكية، detect الكاميرات detect لإدارة التدفق أو تحديد المخالفات. نظرًا لأن السيارات والشاحنات لها أبعاد قياسية، يمكن ضبط النماذج القائمة على المراسي بأولويات محددة لتعظيم الدقة والاسترجاع.
  • أتمتة البيع بالتجزئة: تستخدم أنظمة الدفع الآلي الرؤية الحاسوبية لتحديد المنتجات. ونظراً لأن السلع المعبأة مثل علب الحبوب تحافظ على نسبة عرض إلى ارتفاع ثابتة، فإن المراسي توفر أساساً قوياً للشبكة، مما يساعدها على التمييز بين العناصر المتشابهة في المشهد المزدحم.

مثال على التنفيذ

بينما تستخدم أحدث نماذج YOLO26 رؤوسًا خالية من المراسي لتحقيق أداء فائق، تظل واجهة تشغيل الكشف متسقة. تعمل Ultralytics Python على تجريد التعقيدات المتعلقة بما إذا كان النموذج يستخدم مراسي أو نقاط مركزية، مما يتيح للمستخدمين التركيز على النتائج.

فيما يلي كيفية تحميل نموذج وتشغيل الاستدلال detect ، وهو سير عمل ينطبق بغض النظر عن البنية الأساسية:

from ultralytics import YOLO

# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the first result with bounding boxes
results[0].show()

مزيد من القراءة

لتعميق فهمك لآليات الكشف، استكشف الأبحاث الأساسية حول Faster R-CNN التي قدمت شبكة اقتراح المنطقة (RPN)، أو اقرأ عن Single Shot MultiBox Detector (SSD)، الذي حسّن الكشف القائم على المراسي من أجل السرعة. للحصول على نظرة أوسع لهذا المجال، تعتبر COCO معيارًا قياسيًا لتقييم كل من النماذج القائمة على المراسي والنماذج الخالية من المراسي. بالإضافة إلى ذلك، غالبًا ما تغطي الدورات المتقدمة على Coursera التفاصيل الرياضية لانحدار الصندوق ومطابقة المراسي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن