تعرّف على كيفية تمكين صناديق الارتكاز من اكتشاف الكائنات القائمة على الارتكاز، ومقدمات التصنيف، والانحدار، ونظام إدارة المحتوى، مع تطبيقات في القيادة الذاتية والبيع بالتجزئة.
تُعد مربعات الارتكاز مكونًا أساسيًا في العديد من نماذج اكتشاف الأجسام القائمة على الارتكاز، حيث تعمل كمجموعة محددة مسبقًا من المربعات المرجعية بارتفاعات وعرض محددين. تعمل هذه المربعات كتخمينات مسبقة أو تخمينات مستنيرة حول الموقع المحتمل للأجسام في الصورة وحجمها. وبدلاً من البحث عن الأجسام بشكل أعمى، تستخدم النماذج هذه المربعات كنقاط بداية، وتتنبأ بالإزاحات لتحسين موقعها وحجمها لتتناسب مع الأجسام الفعلية. يحول هذا النهج المهمة المعقدة لتوطين الأجسام إلى مشكلة انحدار أكثر قابلية للإدارة، حيث يتعلم النموذج ضبط هذه القوالب بدلاً من إنشاء مربعات من الصفر.
تتضمن الآلية الأساسية تبليط الصورة بشبكة كثيفة من مربعات التثبيت في مواضع مختلفة. في كل موضع، يتم استخدام عدة نقاط ارتكاز بمقاييس ونسب أبعاد مختلفة لضمان إمكانية اكتشاف الأجسام ذات الأشكال والأحجام المتنوعة بفعالية. أثناء عملية تدريب النموذج، يستخرج العمود الفقري للكاشف أولاً خريطة ميزات من صورة الإدخال. ثم يستخدم رأس الكشف بعد ذلك هذه الميزات لأداء مهمتين لكل مربع تثبيت:
ويستخدم النموذج مقاييس مثل التقاطع على الاتحاد (IoU) لتحديد مربعات الارتكاز التي تتطابق بشكل أفضل مع الكائنات الحقيقية الأرضية أثناء التدريب. بعد التنبؤ، يتم تطبيق خطوة ما بعد المعالجة تُسمى "القمع غير الأقصى" (NMS) لإزالة المربعات الزائدة والمتداخلة لنفس الكائن.
من المهم التمييز بين مربعات الارتكاز والمصطلحات ذات الصلة في الرؤية الحاسوبية:
إن النهج المنظم لصناديق التثبيت يجعلها فعالة في السيناريوهات التي يكون فيها للأجسام أشكال وأحجام يمكن التنبؤ بها.
عادةً ما يتم تطوير هذه النماذج باستخدام أطر عمل قوية للتعلم العميق مثل PyTorch و TensorFlow. للتعلم المستمر، تقدم منصات مثل DeepLearning.AI دورات شاملة حول أساسيات الرؤية الحاسوبية.