اكتشف كيف تستخدم أجهزة الكشف القائمة على المراسي مربعات تحديد محددة مسبقًا للكشف عن الكائنات. تعرف على آلياتها الأساسية وحالات استخدامها في العالم الواقعي وكيف تقارن بأحدث أجهزة Ultralytics الأسرع.
تعد أجهزة الكشف القائمة على المراسي فئة أساسية من نماذج الكشف عن الكائنات في الرؤية الحاسوبية التي تستخدم مجموعة من المربعات المحددة مسبقًا لتحديد موقع classify . بدلاً من محاولة توقع إحداثيات كائن من نقطة الصفر، تبدأ هذه الأنظمة بقوالب مرجعية ثابتة تُعرف باسم مربعات المراسي. ثم يتم تدريب الشبكة العصبية على تحديد أي من هذه القوالب يتطابق بشكل أفضل مع كائن في الصورة وحساب الإزاحة المحددة — التعديلات في الموضع والحجم — اللازمة لمحاذاة المرساة بشكل مثالي مع الهدف. يحول هذا النهج المشكلة الصعبة المتمثلة في التنبؤ بالإحداثيات العشوائية إلى مهمة انحدار أكثر استقرارًا، والتي كانت اختراقًا رئيسيًا في تطوير بنى التعلم العميق (DL) المبكرة مثل Faster R-CNN و SSD.
تدور العملية الأساسية للكاشف القائم على المرجع حول تقسيم الصورة المدخلة إلى شبكة كثيفة. في كل خلية من هذه الشبكة، يولد النموذج عدة مربعات مرجعية بمقاييس ونسب عرض إلى ارتفاع متفاوتة لأخذ أشكال الأجسام المختلفة في الاعتبار، مثل المشاة طوال القامة أو المركبات العريضة. مع مرور بيانات الصورة عبر العمود الفقري للنموذج، تستخرج الشبكة ميزات غنية لأداء مهمتين متزامنتين:
x, y الإحداثيات والعرض والارتفاع، مما ينتج عنه
مربع الإحاطة.
أثناء تدريب النموذج، تستخدم هذه الكواشف مقياسًا يسمى Intersection over Union (IoU) لمطابقة المراسي المحددة مسبقًا مع تسميات الحقيقة الأساسية المتوفرة في مجموعة البيانات. يتم التعامل مع المراسي ذات التداخل العالي كعينات إيجابية. نظرًا لأن هذه العملية تولد آلاف الاكتشافات المحتملة، يتم تطبيق خوارزمية تصفية تُعرف باسم Non-Maximum Suppression (NMS) أثناء الاستدلال لإزالة المربعات الزائدة والاحتفاظ فقط بالتنبؤ الأكثر دقة لكل كائن.
بينما كانت الطرق القائمة على المثبتات هي المعيار السائد لسنوات، تطور هذا المجال نحو أجهزة الكشف الخالية من المثبتات. فهم الاختلاف أمر حيوي للممارسين المعاصرين.
لا تزال المنطق القائم على المرجع ذو صلة في العديد من أنظمة الإنتاج القديمة والمتخصصة حيث تكون أشكال الكائنات متوقعة ومتسقة.
بينما تستخدم أحدث نماذج YOLO26 رؤوسًا خالية من المراسي لتحقيق أداء فائق، تظل واجهة تشغيل الكشف متسقة. تعمل Ultralytics Python على تجريد التعقيدات المتعلقة بما إذا كان النموذج يستخدم مراسي أو نقاط مركزية، مما يتيح للمستخدمين التركيز على النتائج.
فيما يلي كيفية تحميل نموذج وتشغيل الاستدلال detect ، وهو سير عمل ينطبق بغض النظر عن البنية الأساسية:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes
results[0].show()
لتعميق فهمك لآليات الكشف، استكشف الأبحاث الأساسية حول Faster R-CNN التي قدمت شبكة اقتراح المنطقة (RPN)، أو اقرأ عن Single Shot MultiBox Detector (SSD)، الذي حسّن الكشف القائم على المراسي من أجل السرعة. للحصول على نظرة أوسع لهذا المجال، تعتبر COCO معيارًا قياسيًا لتقييم كل من النماذج القائمة على المراسي والنماذج الخالية من المراسي. بالإضافة إلى ذلك، غالبًا ما تغطي الدورات المتقدمة على Coursera التفاصيل الرياضية لانحدار الصندوق ومطابقة المراسي.