Bounding Box
تعلم كيف تحدد المربعات المحيطة (Bounding Boxes) مواقع الكائنات في الرؤية الحاسوبية. استكشف تنسيقات الإحداثيات، والتطبيقات الواقعية، وكيفية استخدام Ultralytics YOLO26.
مربع الإحاطة هو منطقة مستطيلة محددة بمجموعة من الإحداثيات التي تحيط بكائن معين داخل صورة أو إطار فيديو. في مجال رؤية الحاسوب (CV)، تعمل هذه المربعات كتعليقات توضيحية أساسية لتعليم أنظمة الذكاء الاصطناعي (AI) كيفية تحديد العناصر المميزة والتعرف عليها. بدلاً من مجرد تصنيف صورة كاملة على أنها "تحتوي على سيارة"، يتيح مربع الإحاطة للنموذج تحديد الموقع الدقيق والامتداد المكاني للسيارة، مما يفصلها عن الخلفية والكيانات الأخرى. تعد قدرة التوطين هذه ضرورية لمهام اكتشاف الكائنات (object detection)، حيث يكون الهدف هو تحديد كائنات متعددة في وقت واحد بدقة عالية.
Link to this sectionالمفاهيم الأساسية والإحداثيات#
لمعالجة البيانات المرئية بفعالية، تعتمد نماذج تعلم الآلة (ML) على أنظمة إحداثيات محددة لتمثيل مربعات الإحاطة رياضيًا. غالبًا ما يحدد التنسيق المختار كيفية إعداد البيانات لـ تدريب النموذج (model training) وكيفية إخراج النموذج لتوقعاته.
- إحداثيات XYXY: يحدد هذا التنسيق المربع باستخدام قيم البكسل المطلقة للزاوية العلوية اليسرى والزاوية السفلية اليمنى. إنه بديهي لأدوات التصور مثل OpenCV أو Matplotlib عند رسم المستطيلات مباشرة على الصور.
- تنسيق XYWH: شائع في مجموعات البيانات مثل COCO، تحدد هذه الطريقة النقطة المركزية للكائن متبوعة بعرض وارتفاع المربع. هذا التمثيل حاسم لحساب دوال الخسارة (loss functions) أثناء عملية التعلم.
- الإحداثيات المُطبعة (Normalized Coordinates): لضمان القابلية للتوسع (scalability) عبر الصور ذات الدقة المختلفة، غالبًا ما يتم قياس الإحداثيات لتكون في نطاق بين 0 و 1. يساعد هذا النماذج على التعميم بشكل أفضل عند تحليل المدخلات ذات الأبعاد المتغيرة.
Link to this sectionتطبيقات العالم الحقيقي#
تعد مربعات الإحاطة اللبنات الأساسية لعدد لا يحصى من حلول الذكاء الاصطناعي عبر صناعات متنوعة. من خلال تمكين التوطين الدقيق، فهي تسمح للأنظمة بالتفاعل بذكاء مع العالم المادي.
- المركبات ذاتية القيادة (Autonomous Vehicles): تستخدم السيارات ذاتية القيادة مربعات الإحاطة لاكتشاف وتتبع المشاة والمركبات الأخرى وإشارات المرور والعقبات في الوقت الفعلي. يعد هذا الوعي المكاني أمرًا بالغ الأهمية لأنظمة الملاحة والسلامة لاتخاذ قرارات في أجزاء من الثانية.
- تحليلات التجزئة (Retail Analytics): في المتاجر الذكية، تساعد مربعات الإحاطة في مراقبة المخزون على الأرفف وتتبع تفاعلات العملاء مع المنتجات. يمكن لهذه البيانات أتمتة تجديد المخزون وتوفير رؤى حول سلوك المتسوقين دون الحاجة إلى عد يدوي.
Link to this sectionمربعات الإحاطة قيد التنفيذ#
عند استخدام بنيات حديثة مثل YOLO26، يتنبأ النموذج بمربعات الإحاطة جنبًا إلى جنب مع تصنيف الفئة ودرجة الثقة (confidence score). يوضح المثال التالي كيفية تشغيل الاستدلال على صورة والوصول إلى إحداثيات مربع الإحاطة باستخدام حزمة ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionالمصطلحات ذات الصلة والتمييز#
بينما تعد مربعات الإحاطة قياسية للاكتشاف العام، فهي تختلف عن أنواع التعليقات التوضيحية الأخرى المستخدمة في المهام الأكثر دقة.
- تجزئة المثيلات (Instance Segmentation): على عكس مربع الإحاطة المستطيل، تنشئ التجزئة قناعًا مثاليًا للبكسل يتتبع المخطط التفصيلي الدقيق للكائن. يكون هذا مفيدًا عندما يكون الشكل الدقيق أكثر أهمية من الموقع العام.
- مربع الإحاطة الموجه (OBB): تكون مربعات الإحاطة القياسية محاذاة للمحور (مستطيلات منتصبة). يمكن لـ OBBs الدوران لتناسب الكائنات المائلة، مثل السفن في صور الأقمار الصناعية أو الطرود على سير ناقل، مما يوفر ملاءمة أكثر إحكامًا ويقلل من ضوضاء الخلفية.
- النقاط الرئيسية (Keypoints): بدلاً من إحاطة كائن ما، تحدد النقاط الرئيسية معالم محددة، مثل المفاصل في جسم الإنسان لـ تقدير الوضعية (pose estimation).
Link to this sectionأدوات للتعليق التوضيحي والإدارة#
يعد إنشاء تعليقات توضيحية عالية الجودة لمربعات الإحاطة خطوة حاسمة في خط أنابيب ML. تعمل منصة Ultralytics على تبسيط هذه العملية من خلال تقديم أدوات لـ التعليق التوضيحي للبيانات (data annotation) وإدارة مجموعات البيانات. يضمن التعليق التوضيحي المناسب تعلم النماذج للتمييز بين الكائنات بدقة، مما يقلل من الأخطاء مثل الفرط في التخصيص (overfitting) أو تداخل الخلفية. تُستخدم تقنيات متقدمة مثل كبت القيم غير العظمى (NMS) أثناء الاستدلال لتحسين هذه التوقعات عن طريق إزالة المربعات المتداخلة، مما يضمن بقاء الاكتشاف الأكثر دقة فقط لكل كائن.






