Object Detection Architectures
استكشف بنيات كشف الكائنات، من العمود الفقري إلى الرؤوس. تعلم كيف يوفر Ultralytics YOLO26 سرعة ودقة فائقة لرؤية الكمبيوتر في الوقت الفعلي.
بنيات اكتشاف الأجسام هي المخططات الهيكلية للشبكات العصبية المستخدمة لتحديد وتعيين مواقع العناصر داخل البيانات المرئية. في المجال الأوسع لـ رؤية الحاسوب (CV)، تحدد هذه البنيات كيفية "رؤية" الآلة من خلال معالجة بيانات البكسل الخام إلى رؤى ذات مغزى. على عكس نماذج التصنيف الأساسية التي تضع تسمية للصورة ببساطة، تم تصميم بنية اكتشاف الأجسام لإخراج مربع إحاطة (bounding box) إلى جانب تسمية الفئة ودرجة ثقة (confidence score) لكل جسم متميز تجده. يحدد هذا التصميم الهيكلي سرعة النموذج، ودقته، وكفاءته الحسابية، مما يجعله العامل الحاسم عند اختيار نموذج لـ الاستدلال في الوقت الفعلي (real-time inference) أو التحليل عالي الدقة.
Link to this sectionالمكونات الأساسية للبنية#
على الرغم من اختلاف التصميمات المحددة، تشترك معظم البنيات الحديثة في ثلاثة مكونات أساسية: العمود الفقري (backbone)، والعنق (neck)، والرأس (head). يعمل العمود الفقري (backbone) كمستخرج ميزات أساسي. وهو عادةً شبكة عصبية تلافيفية (CNN) مدربة مسبقاً على مجموعة بيانات ضخمة مثل ImageNet، وتكون مسؤولة عن تحديد الأشكال والحواف والقوام الأساسية. تشمل الخيارات الشائعة للأعمدة الفقرية ResNet وCSPDarknet.
يربط العنق (neck) العمود الفقري بطبقات الإخراج النهائية. يتمثل دوره في مزج ودمج الميزات من مراحل مختلفة للعمود الفقري لضمان قدرة النموذج على اكتشاف الأجسام ذات الأحجام المختلفة - وهو مفهوم يُعرف بدمج الميزات متعدد المقاييس. غالباً ما تستخدم البنيات شبكة هرمية للميزات (FPN) أو شبكة تجميع المسار (PANet) هنا لإثراء المعلومات الدلالية الممررة إلى طبقات التنبؤ. أخيراً، يقوم رأس الاكتشاف (detection head) بمعالجة هذه الميزات المدمجة للتنبؤ بالفئة المحددة والموقع الإحداثي لكل جسم.
Link to this sectionالتطور: كاشفات ثنائية المرحلة مقابل أحادية المرحلة#
تاريخياً، قُسمت البنيات إلى فئتين رئيسيتين. الكاشفات ثنائية المرحلة (Two-stage detectors)، مثل عائلة R-CNN، تقترح أولاً مناطق الاهتمام (RoIs) حيث قد توجد أجسام ثم تصنف تلك المناطق في خطوة ثانية. وعلى الرغم من دقتها بشكل عام، إلا أنها غالباً ما تكون ثقيلة حسابياً بالنسبة لأجهزة الحافة.
على النقيض من ذلك، تتعامل الكاشفات أحادية المرحلة (one-stage detectors) مع الاكتشاف كمسألة انحدار بسيطة، حيث تقوم بإنشاء خرائط بكسلات الصورة مباشرة إلى إحداثيات مربع الإحاطة واحتمالات الفئة في تمريرة واحدة. أحدث هذا النهج، الذي رادت به عائلة YOLO (You Only Look Once)، ثورة في الصناعة من خلال تمكين الأداء في الوقت الفعلي. بلغت التطورات الحديثة ذروتها في نماذج مثل YOLO26، والتي لا توفر سرعة فائقة فحسب، بل تبنت أيضاً بنيات شاملة (end-to-end) خالية من NMS. من خلال إزالة الحاجة إلى المعالجة اللاحقة لـ كبت غير الأعظمية (NMS)، تقلل هذه البنيات الأحدث من تباين زمن الوصول، وهو أمر بالغ الأهمية للأنظمة الحساسة للسلامة.
Link to this sectionتطبيقات العالم الحقيقي#
يؤثر اختيار البنية بشكل مباشر على نجاح حلول الذكاء الاصطناعي عبر مختلف الصناعات.
- أتمتة البيع بالتجزئة: في المتاجر الذكية، تسمح البنيات أحادية المرحلة الفعالة بأنظمة دفع آلية تتعرف فوراً على المنتجات الموجودة على سير ناقل أو في عربة تسوق، مما يقلل من أوقات الانتظار والخطأ البشري.
- التشخيص الطبي: تُستخدم البنيات عالية الدقة في تحليل الصور الطبية لاكتشاف الشذوذ مثل الأورام في الأشعة السينية أو فحوصات الرنين المغناطيسي. هنا، تُعد قدرة البنية على الاحتفاظ بالتفاصيل الدقيقة أكثر أهمية من سرعة المعالجة الخام.
Link to this sectionالتمييز بين المصطلحات ذات الصلة#
من المهم التمييز بين بنيات الاكتشاف ومهام رؤية الحاسوب المشابهة:
- مقابل تصنيف الصور: تقوم بنية تصنيف الصور (مثل VGG أو EfficientNet) بتعيين تسمية واحدة لصورة كاملة (على سبيل المثال، "قطة"). إنها لا تخبرك أين توجد القطة أو ما إذا كانت هناك قطط متعددة، وهو ما يمثل الوظيفة الأساسية لبنيات الاكتشاف.
- مقابل تجزئة المثيل (Instance Segmentation): بينما يضع الاكتشاف مربعاً حول جسم ما، تقوم تجزئة المثيل بتحديد المخطط التفصيلي الدقيق (القناع) لكل جسم. غالباً ما تكون بنيات التجزئة امتدادات لبنيات الاكتشاف (على سبيل المثال، إضافة فرع قناع إلى رأس الاكتشاف).
Link to this sectionالتنفيذ باستخدام Ultralytics#
قامت الأطر الحديثة بتجريد تعقيدات هذه البنيات، مما يسمح للمطورين بالاستفادة من أحدث التصميمات بأقل قدر من التعليمات البرمجية. باستخدام حزمة ultralytics، يمكنك تحميل نموذج YOLO26 مدرب مسبقاً وتشغيل الاستدلال فوراً. بالنسبة للفرق التي تتطلع إلى إدارة مجموعات بياناتها وتدريب بنيات مخصصة في السحابة، تعمل منصة Ultralytics على تبسيط خط أنابيب MLOps بالكامل.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()





