أفضل نماذج كشف الكائنات لعام 2025
استكشف أفضل نماذج كشف الأشياء في عام 2026، مع نظرة على المعماريات الشائعة، ومقايضات الأداء، وعوامل النشر العملية.

في وقت سابق من هذا العام، قدم أندرو نج، أحد رواد الذكاء الاصطناعي وتعلم الآلة، مفهوم اكتشاف الكائنات الوكيل (agentic object detection). يستخدم هذا النهج وكيلاً استدلالياً لاكتشاف الكائنات بناءً على نص إرشادي دون الحاجة إلى كميات هائلة من بيانات التدريب.
إن القدرة على تحديد الكائنات في الصور ومقاطع الفيديو دون الحاجة إلى مجموعات بيانات ضخمة ومصنفة هي خطوة نحو أنظمة رؤية حاسوبية أكثر ذكاءً ومرونة. ومع ذلك، لا يزال ذكاء الرؤية الاصطناعي الوكيل في مراحله الأولى.
بينما يمكنه التعامل مع المهام العامة، مثل اكتشاف الأشخاص أو لافتات الشوارع في صورة ما، لا تزال تطبيقات الرؤية الحاسوبية الأكثر دقة تعتمد على نماذج اكتشاف الكائنات التقليدية. يتم تدريب هذه النماذج على مجموعات بيانات كبيرة ومصنفة بعناية لتعلم ما يجب البحث عنه بالضبط وأين تقع الكائنات.

الشكل 1. مثال على اكتشاف الكائنات. (المصدر)
يعد اكتشاف الكائنات التقليدي أمراً أساسياً لأنه يوفر كلاً من التمييز، أي تحديد ماهية الكائن، والتوطين، أي تحديد موقعه بالضبط في الصورة. يُمكّن هذا المزيج الآلات من أداء مهام واقعية معقدة بشكل موثوق، بدءاً من المركبات ذاتية القيادة وصولاً إلى الأتمتة الصناعية وتشخيص الرعاية الصحية.
بفضل التقدم التكنولوجي، تستمر نماذج اكتشاف الكائنات في التحسن، وتصبح أسرع وأكثر دقة وأنسب للبيئات الواقعية. في هذا المقال، سنستعرض بعضاً من أفضل نماذج اكتشاف الكائنات المتاحة اليوم. لنبدأ!
Link to this sectionالحاجة إلى اكتشاف الكائنات#
يمكن استخدام مهام الرؤية الحاسوبية مثل تصنيف الصور لمعرفة ما إذا كانت الصورة تحتوي على سيارة أو شخص أو كائن آخر. ومع ذلك، لا يمكن لهذه المهام تحديد مكان وجود الكائن داخل الصورة.
هنا تكمن أهمية اكتشاف الكائنات. يمكن لنماذج اكتشاف الكائنات تحديد الكائنات الموجودة وتحديد مواقعها بدقة. تسمح هذه العملية، المعروفة باسم التوطين، للآلات بفهم المشاهد بشكل أدق والاستجابة بشكل مناسب، سواء كان ذلك إيقاف سيارة ذاتية القيادة، أو توجيه ذراع روبوت، أو تمييز منطقة في التصوير الطبي.
لقد أحدث صعود التعلم العميق تحولاً في اكتشاف الكائنات. فبدلاً من الاعتماد على قواعد مشفرة يدوياً، تتعلم النماذج الحديثة الأنماط مباشرة من التعليقات التوضيحية والبيانات المرئية. تُعلّم مجموعات البيانات هذه النماذج كيف تبدو الكائنات، وأين تظهر عادةً، وكيفية التعامل مع التحديات مثل الكائنات الصغيرة، أو المشاهد المزدحمة، أو ظروف الإضاءة المتغيرة.
في الواقع، يمكن لأنظمة اكتشاف الكائنات الحديثة اكتشاف كائنات متعددة في وقت واحد بدقة. وهذا يجعل من اكتشاف الكائنات تقنية حاسمة في تطبيقات مثل القيادة الذاتية، والروبوتات، والرعاية الصحية، والأتمتة الصناعية.
Link to this sectionكيف تعمل مهام اكتشاف الكائنات#
مدخلات نموذج اكتشاف الكائنات هي صورة، والتي قد تأتي من كاميرا، أو إطار فيديو، أو حتى مسح طبي. تتم معالجة الصورة المدخلة من خلال شبكة عصبية، عادةً ما تكون شبكة عصبية تلافيفية (CNN)، والتي يتم تدريبها على التعرف على الأنماط في البيانات المرئية.
داخل الشبكة، يتم تحليل الصورة على مراحل. وبناءً على الميزات التي تكتشفها، يتوقع النموذج الكائنات الموجودة وأماكن ظهورها.
يتم تمثيل هذه التوقعات باستخدام مربعات الإحاطة، وهي مستطيلات مرسومة حول كل كائن تم اكتشافه. لكل مربع إحاطة، يعين النموذج تسمية فئة (على سبيل المثال، سيارة، أو شخص، أو كلب) ودرجة ثقة تشير إلى مدى تأكده من التوقع (يمكن اعتبار هذا أيضاً احتمالية).

الشكل 2. يمكن تصور توقعات اكتشاف الكائنات باستخدام مربعات الإحاطة.
تعتمد العملية برمتها بشكل كبير على استخراج الميزات. يتعلم النموذج تحديد الأنماط المرئية المفيدة، مثل الحواف، والأشكال، والقوام، وغيرها من الخصائص المميزة. يتم ترميز هذه الأنماط في خرائط ميزات، والتي تساعد الشبكة على فهم الصورة بمستويات متعددة من التفاصيل.
Link to this sectionاكتشاف الكائنات: مرحلتان ومرحلة واحدة#
اعتماداً على بنية النموذج، تستخدم كواشف الكائنات استراتيجيات مختلفة لتحديد مواقع الكائنات، مما يوازن بين السرعة والدقة والتعقيد.
تركز العديد من نماذج اكتشاف الكائنات، وخاصة كواشف المرحلتين مثل Faster R-CNN، على أجزاء محددة من الصورة تسمى مناطق الاهتمام (ROIs). من خلال التركيز على هذه المناطق، يعطي النموذج الأولوية للمناطق الأكثر احتمالاً لاحتواء كائنات بدلاً من تحليل كل بكسل بالتساوي.
من ناحية أخرى، لا تختار نماذج المرحلة الواحدة مثل نماذج YOLO المبكرة مناطق اهتمام محددة كما تفعل نماذج المرحلتين. بدلاً من ذلك، تقوم بتقسيم الصورة إلى شبكة واستخدام مربعات محددة مسبقاً، تسمى مربعات الارتساء (anchor boxes)، جنباً إلى جنب مع خرائط الميزات للتنبؤ بالكائنات عبر الصورة بأكملها في تمريرة واحدة.
في الوقت الحاضر، تستكشف نماذج اكتشاف الكائنات المتطورة مناهج خالية من الارتساء. على عكس نماذج المرحلة الواحدة التقليدية التي تعتمد على مربعات ارتساء محددة مسبقاً، تتنبأ النماذج الخالية من الارتساء بمواقع الكائنات وأحجامها مباشرة من خرائط الميزات. يمكن أن يؤدي هذا إلى تبسيط البنية، وتقليل العبء الحسابي، وتحسين الأداء، خاصة لاكتشاف الكائنات ذات الأشكال والأحجام المتغيرة.
Link to this sectionنظرة على أفضل نماذج اكتشاف الكائنات#
اليوم، هناك العديد من نماذج اكتشاف الكائنات، وكل منها مصمم مع وضع أهداف محددة في الاعتبار. تم تحسين بعضها للأداء في الوقت الفعلي، بينما يركز البعض الآخر على تحقيق أعلى دقة. غالباً ما يعتمد اختيار النموذج المناسب لحل رؤية حاسوبية على حالة الاستخدام الخاصة بك ومتطلبات الأداء.
بعد ذلك، دعنا نستكشف بعضاً من أفضل نماذج كشف الكائنات لعام 2026.
Link to this sectionنماذج Ultralytics YOLO#
تعد عائلة نماذج Ultralytics YOLO واحدة من أكثر عائلات نماذج اكتشاف الكائنات استخداماً على نطاق واسع اليوم. تشتهر YOLO، والتي تعني "أنت تنظر مرة واحدة فقط" (You Only Look Once)، في مختلف الصناعات لأنها تقدم أداء اكتشاف قوياً مع كونها سريعة وموثوقة وسهلة العمل بها.
تتضمن عائلة Ultralytics YOLO كلاً من Ultralytics YOLOv5 وUltralytics YOLOv8 وUltralytics YOLO11 ونموذج Ultralytics YOLO26 القادم، مما يوفر مجموعة من الخيارات لمتطلبات الأداء وحالات الاستخدام المختلفة. بفضل تصميمها الخفيف وتحسين السرعة، تعد نماذج Ultralytics YOLO مثالية للاكتشاف في الوقت الفعلي ويمكن نشرها على أجهزة الحافة ذات القدرة الحسابية والذاكرة المحدودة.

الشكل 3. استخدام Ultralytics YOLO11 لاكتشاف الكائنات (المصدر)
إلى جانب اكتشاف الكائنات الأساسي، تتميز هذه النماذج بتعدد استخداماتها العالي. فهي تدعم أيضاً مهام مثل تجزئة الكائنات (instance segmentation)، التي تحدد ملامح الكائنات على مستوى البكسل، وتقدير الوضع (pose estimation)، الذي يحدد النقاط الرئيسية على الأشخاص أو الكائنات. تجعل هذه المرونة من نماذج Ultralytics YOLO خياراً مفضلاً لمجموعة واسعة من التطبيقات، من الزراعة والخدمات اللوجستية إلى البيع بالتجزئة والتصنيع.
سبب رئيسي آخر لشعبية نماذج Ultralytics YOLO هو حزمة Ultralytics Python، التي توفر واجهة بسيطة وسهلة الاستخدام لتدريب النماذج وضبطها ونشرها. يمكن للمطورين البدء بأوزان مدربة مسبقاً، وتخصيص النماذج لمجموعات بياناتهم الخاصة، ونشرها ببضعة أسطر فقط من التعليمات البرمجية.
Link to this sectionRT-DETR و RT-DETRv2#
RT‑DETR (كاشف المحولات في الوقت الفعلي) والنموذج الأحدث RT‑DETRv2 هما نموذجا اكتشاف كائنات مصممان للاستخدام في الوقت الفعلي. على عكس العديد من النماذج التقليدية، يمكنهما أخذ صورة وإعطاء الاكتشافات النهائية مباشرة دون استخدام كبت غير الأعظمية (NMS).
NMS هي خطوة تزيل المربعات الإضافية المتداخلة عندما يتوقع النموذج نفس الكائن أكثر من مرة. تجعل خطوة تجاوز NMS عملية الاكتشاف أبسط وأسرع.
تجمع هذه النماذج بين CNNs والمحولات (transformers). تجد CNN التفاصيل المرئية مثل الحواف والأشكال، بينما المحول هو نوع من الشبكات العصبية التي يمكنها النظر إلى الصورة بأكملها في وقت واحد وفهم كيفية ارتباط الأجزاء المختلفة ببعضها البعض. يتيح هذا الفهم الشامل للنموذج اكتشاف الكائنات القريبة من بعضها أو المتداخلة.
يعمل RT‑DETRv2 على تحسين النموذج الأصلي بميزات مثل الاكتشاف متعدد المقاييس، مما يساعد في العثور على الكائنات الصغيرة والكبيرة، وتحسين التعامل مع المشاهد المعقدة. تحافظ هذه التغييرات على سرعة النموذج مع تحسين الدقة.
Link to this sectionRF-DETR#
RF‑DETR هو نموذج قائم على المحولات في الوقت الفعلي مصمم للجمع بين دقة بنيات المحولات والسرعة اللازمة للتطبيقات الواقعية. مثل RT‑DETR و RT‑DETRv2، يستخدم محولاً لتحليل الصورة بأكملها وCNN لاستخراج الميزات المرئية الدقيقة مثل الحواف والأشكال والقوام.
يتوقع النموذج الكائنات مباشرة من الصورة المدخلة، متجاوزاً مربعات الارتساء وكبت غير الأعظمية، مما يبسط عملية الاكتشاف ويحافظ على سرعة الاستدلال. يدعم RF‑DETR أيضاً تجزئة الكائنات، مما يسمح له بتحديد ملامح الكائنات على مستوى البكسل بالإضافة إلى التنبؤ بمربعات الإحاطة.
Link to this sectionEfficientDet#
تم إصدار EfficientDet في أواخر عام 2019، وهو نموذج اكتشاف كائنات مصمم للقياس الفعال والأداء العالي. ما يميز EfficientDet هو القياس المركب، وهو طريقة تقيس دقة المدخلات، وعمق الشبكة، وعرض الشبكة في وقت واحد بدلاً من تعديل عامل واحد فقط. يساعد هذا النهج النموذج في الحفاظ على دقة مستقرة سواء تم توسيع نطاقه لمهام الأداء العالي أو تصغيره لعمليات النشر خفيفة الوزن.
مكون رئيسي آخر لـ EfficientDet هو شبكة هرم الميزات الفعالة (FPN)، والتي تسمح للنموذج بتحليل الصور بمقاييس متعددة. هذا التحليل متعدد المقاييس ضروري لاكتشاف الكائنات ذات الأحجام المختلفة، مما يمكن EfficientDet من تحديد كل من الكائنات الصغيرة والكبيرة بشكل موثوق داخل نفس الصورة.
Link to this sectionPP-YOLOE+#
تم إصدار PP-YOLOE+ في عام 2022، وهو نموذج اكتشاف كائنات على طراز YOLO، مما يعني أنه يكتشف الكائنات ويصنفها في تمريرة واحدة فوق الصورة. هذا النهج يجعله سريعاً ومناسباً للتطبيقات في الوقت الفعلي، مع الحفاظ على دقة عالية.
أحد التحسينات الرئيسية في PP-YOLOE+ هو التعلم المتوافق مع المهام، والذي يساعد درجات ثقة النموذج على عكس مدى دقة تحديد مواقع الكائنات. هذا مفيد بشكل خاص لاكتشاف الكائنات الصغيرة أو المتداخلة.

الشكل 4. اكتشاف الكائنات باستخدام PP-YOLOE+ (المصدر)
يستخدم النموذج أيضاً بنية رأس مفككة، والتي تفصل بين مهام التنبؤ بمواقع الكائنات وتسميات الفئات. يسمح هذا له برسم مربعات الإحاطة بدقة أكبر مع تصنيف الكائنات بشكل صحيح.
Link to this sectionGroundingDINO#
GroundingDINO هو نموذج اكتشاف كائنات قائم على المحولات يجمع بين الرؤية واللغة. بدلاً من الاعتماد على مجموعة ثابتة من الفئات، فإنه يسمح للمستخدمين باكتشاف الكائنات باستخدام نصوص إرشادية بلغة طبيعية.
من خلال مواءمة الميزات المرئية من صورة مع أوصاف نصية، يمكن للنموذج تحديد موقع الكائنات حتى لو لم تكن تلك التسميات الدقيقة في بيانات التدريب الخاصة به. هذا يعني أنه يمكنك مطالبة النموذج بأوصاف مثل "شخص يرتدي خوذة" أو "سيارة حمراء بالقرب من مبنى"، وسيقوم بإنشاء مربعات إحاطة دقيقة حول الكائنات المطابقة.
أيضاً، من خلال دعم الاكتشاف بدون تدريب مسبق (zero-shot)، يقلل GroundingDINO من الحاجة إلى إعادة تدريب النموذج أو ضبطه لكل حالة استخدام جديدة، مما يجعله مرناً للغاية عبر مجموعة واسعة من التطبيقات. يفتح هذا المزيج من فهم اللغة والتعرف المرئي إمكانيات جديدة لأنظمة الذكاء الاصطناعي التفاعلية والقابلة للتكيف.
Link to this sectionالمقاييس الشائعة المستخدمة لتقييم كواشف الكائنات#
بينما تقارن بين نماذج اكتشاف كائنات مختلفة، قد تتساءل عن كيفية معرفة أيهما يؤدي الأفضل حقاً. إنه سؤال جيد، لأنه بخلاف بنية النموذج وجودة بياناتك، يمكن أن تؤثر العديد من العوامل على الأداء.
غالباً ما يعتمد الباحثون على معايير مشتركة ومقاييس أداء قياسية لتقييم النماذج بشكل متسق، ومقارنة النتائج، وفهم المقايضات بين السرعة والدقة. المعايير القياسية مهمة بشكل خاص لأن العديد من نماذج اكتشاف الكائنات يتم تقييمها على نفس مجموعات البيانات، مثل مجموعة بيانات COCO.
Link to this sectionقياس دقة الاكتشاف والسرعة#
إليك نظرة فاحصة على بعض المقاييس الشائعة المستخدمة لتقييم نماذج اكتشاف الكائنات:
- التقاطع فوق الاتحاد (IoU): يقيس هذا المقياس مقدار تداخل مربع الإحاطة المتوقع مع الكائن الفعلي في الصورة. وهو يقارن المربع الذي رسمه النموذج مع مربع الحقيقة الأرضية، وهو موقع الكائن كما هو مصنف في مجموعة البيانات. يتم حساب IoU كمساحة التداخل مقسومة على مساحة اتحاد المربعين. يشير IoU الأعلى إلى أن النموذج يضع المربع بدقة أكبر، بينما يعني IoU الأقل أن التوقع أقل دقة. بعبارات بسيطة، يُظهر IoU مدى مطابقة توقعات النموذج لمواقع الكائنات الحقيقية.
- متوسط الدقة المتوسط (mAP): هو المقياس الأساسي المستخدم لتقييم الأداء العام لاكتشاف الكائنات. وهو يأخذ في الاعتبار كلاً من عدد الكائنات التي يكتشفها النموذج بشكل صحيح ودقة تلك الاكتشافات عبر مستويات ثقة وفئات كائنات مختلفة.
- الإطارات في الثانية (FPS) وزمن الانتقال: تُظهر FPS عدد الصور أو إطارات الفيديو التي يمكن للنموذج معالجتها في ثانية واحدة. على سبيل المثال، يمكن لنموذج يعمل بسرعة 30 FPS التعامل مع 30 إطاراً كل ثانية. تعني FPS الأعلى أن النظام يمكنه الاستجابة بشكل أسرع، وهو أمر مهم لحالات الاستخدام مثل الفيديو المباشر، أو مراقبة حركة المرور، أو الروبوتات. من ناحية أخرى، يقيس زمن الانتقال الوقت الذي يستغرقه النموذج لمعالجة صورة أو إطار واحد من لحظة استلامه حتى تصبح النتيجة جاهزة.
Link to this sectionإيجابيات وسلبيات استخدام خوارزميات اكتشاف الكائنات#
فيما يلي بعض المزايا الرئيسية لاستخدام نماذج اكتشاف الكائنات في التطبيقات الواقعية:
- التوسع عبر الصناعات: يمكن تطبيق اكتشاف الكائنات على مجموعة واسعة من حالات الاستخدام، من مراقبة حركة المرور وتحليلات البيع بالتجزئة إلى الرعاية الصحية والزراعة والتصنيع.
- تقليل الجهد اليدوي: تؤدي أتمتة مهام الفحص والمراقبة المرئية إلى تقليل الحاجة إلى الإشراف البشري المستمر وتساعد الفرق على التركيز على عمل ذي قيمة أعلى.
- الاستفادة من الأنظمة البيئية مفتوحة المصدر: تجعل المجتمعات والموارد النشطة مفتوحة المصدر على GitHub من الأسهل الوصول إلى النماذج المدربة مسبقاً، والتجربة، وتخصيص الحلول.
على الرغم من هذه الإيجابيات، هناك قيود عملية يمكن أن تؤثر على كيفية أداء نماذج اكتشاف الكائنات. فيما يلي بعض العوامل الحيوية التي يجب مراعاتها:
- متطلبات البيانات عالية الجودة: تعتمد نماذج اكتشاف الكائنات على مجموعات بيانات كبيرة ومصنفة جيداً للتدريب. يمكن أن يكون إنشاء هذه البيانات وصيانتها مستهلكاً للوقت ومكلفاً وصعب التوسع.
- المتطلبات الحسابية: غالباً ما تتطلب النماذج التي تقدم دقة اكتشاف أعلى قوة معالجة كبيرة، سواء أثناء التدريب أو النشر في الوقت الفعلي. وهذا يعني عادةً استخدام وحدات معالجة رسومات (GPUs) عالية الأداء، مما قد يزيد من تكاليف البنية التحتية.
- الحساسية للظروف الواقعية: يمكن أن تؤثر الاختلافات في الإضاءة، وزوايا الكاميرا، والطقس، والمشاهد المزدحمة على أداء الاكتشاف، مما يجعل الاختبار والتعديل المستمرين أمراً ضرورياً.
Link to this sectionأبرز النقاط#
يعتمد أفضل نموذج لاكتشاف الكائنات لمشروع الرؤية الحاسوبية الخاص بك على حالة الاستخدام، وإعداد البيانات، ومتطلبات الأداء، وقيود الأجهزة. تم تحسين بعض النماذج للسرعة، بينما يركز البعض الآخر على الدقة، وتحتاج معظم التطبيقات الواقعية إلى توازن بين كليهما. بفضل الأطر مفتوحة المصدر والمجتمعات النشطة على GitHub، أصبحت هذه النماذج أسهل في التقييم والتكيف والنشر للاستخدام العملي.
لمعرفة المزيد، استكشف مستودع GitHub الخاص بنا. انضم إلى مجتمعنا وتحقق من صفحات الحلول الخاصة بنا للقراءة عن تطبيقات مثل الذكاء الاصطناعي في الرعاية الصحية والرؤية الحاسوبية في صناعة السيارات. اكتشف خيارات الترخيص لدينا للبدء في استخدام ذكاء الرؤية الاصطناعي اليوم.






