Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

صناديق التثبيت

تعرّف على كيفية تمكين صناديق الارتكاز من اكتشاف الكائنات القائمة على الارتكاز، ومقدمات التصنيف، والانحدار، NMS، مع تطبيقات في القيادة الذاتية والبيع بالتجزئة.

تعمل مربعات الارتكاز كمفهوم تأسيسي في بنية العديد من نماذج نماذج الكشف عن الأجسام، حيث تعمل كمراجع محددة مسبقًا للتنبؤ بموقع الأجسام وحجمها. بدلاً من مسح الصورة بحثًا عن أجسام ذات أبعاد عشوائية من الصفر، يستخدم النموذج هذه الأشكال الثابتة - المحددة بارتفاعات وعرض محددين - كنقاط بداية, أو كنقاط بداية. هذا النهج يبسط عملية التعلم من خلال تحويل المهمة الصعبة للتنبؤ بالإحداثيات المطلقة إلى مشكلة انحدار أكثر قابلية للإدارة حيث تتعلم الشبكة تعديل أو "إزاحة" هذه القوالب هذه القوالب لتتناسب مع الأجسام الحقيقية الأرضية. هذه التقنية كانت هذه التقنية محورية في نجاح البنى الشائعة مثل عائلة عائلة شبكة R-CNN الأسرع وأوائل أجهزة الكشف أحادية المرحلة.

كيف تعمل صناديق التثبيت

تتضمن آلية مربعات التثبيت تبليط صورة الإدخال بشبكة كثيفة من المراكز. في كل خلية شبكية يتم إنشاء مربعات تثبيت متعددة بنسب أبعاد و ومقاييس مختلفة لاستيعاب الأجسام ذات الأشكال المختلفة، مثل المشاة الطوال أو المركبات العريضة. أثناء مرحلة تدريب النموذج، يطابق النظام هذه المراسي مع الأجسام الفعلية باستخدام مقياس يسمى التقاطع على الاتحاد (IoU). المراسي التي تتداخل بشكل كبير مع كائن مستهدف يتم تصنيفها كعينات إيجابية.

يستخرج العمود الفقري للكاشف الميزات من الصورة, والتي يستخدمها رأس الكشف لأداء مهمتين مهمتين متوازيتين لكل مرساة موجبة:

  • التصنيف: يتنبأ النموذج باحتمالية احتواء المرساة على كائن معين محدد، مع تعيين درجة ثقة.
  • الانحدار الصندوقي: تحسب الشبكة الإزاحات الإحداثية الدقيقة اللازمة لإعادة تشكيل المرساة إلى مربع محدّد نهائي يحيط بإحكام بالكائن الجسم بإحكام.

للتعامل مع التنبؤات المتداخلة لنفس الكائن، يتم تنفيذ خطوة ما بعد المعالجة تُعرف باسم بالقمع غير الأقصى (NMS) لتصفية من المربعات الزائدة عن الحاجة، مع الاحتفاظ فقط بالمربع الذي يتمتع بأعلى درجات الثقة. أطر مثل PyTorch و TensorFlow الأدوات الحسابية اللازمة لتنفيذ هذه العمليات المعقدة بكفاءة.

المراسي مقابل المفاهيم ذات الصلة

يتطلب فهم مربعات الارتساء تمييزها عن المصطلحات المماثلة ضمن الرؤية الحاسوبية (CV).

  • صناديق الارتكاز مقابل الصناديق المحددة: مربع الارتكاز هو قالب نظري ثابت يُستخدم كقالب ثابت يُستخدم كفرضية فرضية أثناء المعالجة. المربع المحيط هو الناتج النهائي المنقح الذي يحتوي على إحداثيات الكائن المكتشف.
  • المستندة إلى مرساة مقابل الخالية من المرساة: أجهزة الكشف التقليدية التقليدية القائمة على المرساة، مثل YOLOv5تعتمد على هذه الإعدادات المسبقة اليدوية. في المقابل، تعتمد أجهزة الكشف الحديثة الحديثة الخالية من المرساة، مثل Ultralytics YOLO11تتنبأ بمراكز الأجسام أو النقاط الرئيسية مباشرةً. يعمل هذا التحول على تبسيط تصميم النموذج عن طريق إزالة الحاجة إلى ضبط المعلمة الفائقة المتعلقة بأبعاد الارتكاز المرتبط بأبعاد الارتكاز، وغالبًا ما يحسن التعميم على مجموعات بيانات مثل COCO.

تطبيقات واقعية

الطبيعة المهيكلة لصناديق التثبيت تجعلها فعالة بشكل خاص في البيئات التي تكون فيها أشكال الأجسام متسقة ويمكن التنبؤ بها.

  1. القيادة الذاتية: تعتمد الأنظمة المطورة لـ المركبات ذاتية القيادة تعتمد على اكتشاف الأجسام القياسية مثل السيارات والشاحنات وإشارات المرور. نظرًا لأن هذه الأجسام لها نسب أبعاد ثابتة نسبيًا, يمكن ضبط صناديق التثبيت لالتقاطها بكفاءة. تستخدم شركات مثل تستخدم شركات مثل Waymo خطوط أنابيب اكتشاف متطورة لضمان السلامة في المعقدة.
  2. إدارة مخزون التجزئة: في تحليلات البيع بالتجزئة، تقوم أنظمة الرؤية بمراقبة الرفوف من أجل detect مستويات المخزون. عادةً ما يكون للبضائع المعبأة أشكال موحدة، مما يسمح للنماذج القائمة على المرساة بحساب دقيق العناصر وتحديد المنتجات غير المتوفرة في المخزون بدقة. تدعم هذه الأتمتة إدارة المخزون القائمة على الذكاء الاصطناعي، مما يقلل من العمل اليدوي.

مثال على الرمز

في حين أن النماذج الحديثة مثل YOLO11 خالية من المراسي، فإن الإصدارات السابقة مثل YOLOv5 تستخدم صناديق المراسي. إن ultralytics تلخّص الحزمة هذا التعقيد، مما يسمح للمستخدمين بتشغيل الاستدلال دون الحاجة إلى تكوين المراسي يدويًا. يوضّح المثال التالي تحميل نموذج مدرّب مسبقًا detect الكائنات:

from ultralytics import YOLO

# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")

# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected bounding boxes
results[0].show()

بالنسبة للمهتمين بالأسس الرياضية لهذه الأنظمة، فإن المنصات التعليمية مثل كورسيرا و و DeepLearning.AI تقدم دورات متعمقة حول الشبكات العصبية التلافيفية واكتشاف الأجسام.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن