Yolo فيجن شنتشن
شنتشن
انضم الآن

أفضل نماذج الكشف عن الأشياء لعام 2025

استكشف أفضل نماذج الكشف عن الكائنات في عام 2025، مع إلقاء نظرة على البنى الشائعة، والمفاضلات في الأداء، وعوامل النشر العملية.

في وقت سابق من هذا العام، قدم أندرو نج، رائد في مجال الذكاء الاصطناعي والتعلم الآلي، مفهوم الكشف عن الكائنات الوكيلة. يستخدم هذا النهج وكيلًا منطقيًا detect بناءً على موجه نصي دون الحاجة إلى كميات هائلة من بيانات التدريب. 

القدرة على التعرف على الأشياء في الصور ومقاطع الفيديو دون الحاجة إلى مجموعات بيانات ضخمة مصنفة هي خطوة نحو أنظمة رؤية حاسوبية أكثر ذكاءً ومرونة. ومع ذلك، لا تزال تقنية الذكاء الاصطناعي للرؤية في مراحلها الأولى. 

على الرغم من قدرتها على التعامل مع المهام العامة، مثل اكتشاف الأشخاص أو لافتات الشوارع في الصورة، إلا أن تطبيقات الرؤية الحاسوبية الأكثر دقة لا تزال تعتمد على نماذج اكتشاف الأجسام التقليدية. يتم تدريب هذه النماذج على مجموعات بيانات كبيرة ومصنفة بعناية لتتعلم بالضبط ما الذي تبحث عنه ومكان وجود الأجسام.

الشكل 1. مثال على اكتشاف الأجسام. (المصدر)

يعد الكشف التقليدي عن الأشياء أمرًا ضروريًا لأنه يوفر كل من التعرف على ماهية الشيء وتحديد موقعه بالضبط في الصورة. يتيح هذا المزيج للآلات أداء مهام معقدة في العالم الحقيقي بشكل موثوق، بدءًا من المركبات ذاتية القيادة وحتى الأتمتة الصناعية وتشخيص الرعاية الصحية.

بفضل التقدم التكنولوجي، تستمر نماذج الكشف عن الأشياء في التحسن، حيث أصبحت أسرع وأكثر دقة وأكثر ملاءمة للبيئات الواقعية. في هذه المقالة، سنتناول بعضًا من أفضل نماذج الكشف عن الأشياء المتاحة حاليًا. هيا بنا نبدأ!

الحاجة إلى اكتشاف الأجسام

يمكن استخدام مهام الرؤية الحاسوبية مثل تصنيف الصور لمعرفة ما إذا كانت الصورة تحتوي على سيارة أو شخص أو كائن آخر. ومع ذلك، لا يمكنها تحديد مكان الكائن داخل الصورة.

وهنا يمكن أن يكون اكتشاف الأجسام مفيدًا. يمكن لنماذج اكتشاف الأجسام تحديد الأجسام الموجودة وتحديد مواقعها بدقة. تسمح هذه العملية، المعروفة باسم تحديد الموقع، للآلات بفهم المشاهد بدقة أكبر والاستجابة بشكل مناسب، سواء كان ذلك بإيقاف سيارة ذاتية القيادة أو توجيه ذراع روبوت أو تمييز منطقة في التصوير الطبي.

أدى ظهور التعلم العميق إلى تغيير طريقة اكتشاف الأجسام. فبدلاً من الاعتماد على قواعد مكتوبة يدويًا، تتعلم النماذج الحديثة الأنماط مباشرةً من التعليقات التوضيحية والبيانات المرئية. تعلم مجموعات البيانات هذه النماذج شكل الأجسام ومكان ظهورها عادةً وكيفية التعامل مع التحديات مثل الأجسام الصغيرة والمشاهد المزدحمة أو ظروف الإضاءة المتغيرة.

في الواقع، يمكن لأنظمة الكشف عن الأجسام المتطورة detect بدقة detect أجسام في وقت واحد. وهذا يجعل الكشف عن الأجسام تقنية حاسمة في تطبيقات مثل القيادة الذاتية والروبوتات والرعاية الصحية والأتمتة الصناعية.

كيف تعمل مهام الكشف عن الأشياء

المدخلات إلى نموذج الكشف عن الكائنات هي صورة، يمكن أن تأتي من كاميرا أو إطار فيديو أو حتى فحص طبي. تتم معالجة الصورة المدخلة من خلال شبكة عصبية، عادةً ما تكون شبكة عصبية تلافيفية (CNN)، يتم تدريبها على التعرف على الأنماط في البيانات المرئية.

داخل الشبكة، يتم تحليل الصورة على مراحل. استنادًا إلى الميزات التي يكتشفها، يتنبأ النموذج بالأجسام الموجودة وأماكن ظهورها. 

يتم تمثيل هذه التنبؤات باستخدام مربعات حدودية، وهي مستطيلات مرسومة حول كل كائن تم اكتشافه. لكل مربع حدودي، يقوم النموذج بتعيين تسمية فئة (على سبيل المثال، سيارة أو شخص أو كلب) ودرجة ثقة تشير إلى مدى تأكده من التنبؤ (يمكن اعتبار ذلك أيضًا احتمالية).

الشكل 2. يمكن تصور تنبؤات اكتشاف الكائنات باستخدام مربعات الحدود.

تعتمد العملية برمتها بشكل كبير على استخراج الميزات. يتعلم النموذج كيفية تحديد الأنماط المرئية المفيدة، مثل الحواف والأشكال والأنسجة وغيرها من الخصائص المميزة. يتم ترميز هذه الأنماط في خرائط الميزات، مما يساعد الشبكة على فهم الصورة على مستويات متعددة من التفاصيل.

كشف الأجسام: مرحلتان ومرحلة واحدة

اعتمادًا على بنية النموذج، تستخدم أجهزة الكشف عن الأجسام استراتيجيات مختلفة لتحديد مواقع الأجسام، مع تحقيق التوازن بين السرعة والدقة والتعقيد.

تركز العديد من نماذج الكشف عن الأجسام، ولا سيما أجهزة الكشف ثنائية المراحل مثل Faster R-CNN، على أجزاء محددة من الصورة تسمى مناطق الاهتمام (ROI). من خلال التركيز على هذه المناطق، يعطي النموذج الأولوية للمناطق التي من المرجح أن تحتوي على أجسام بدلاً من تحليل كل بكسل على قدم المساواة. 

من ناحية أخرى، لا تختار النماذج أحادية المرحلة مثل YOLO المبكرة مناطق اهتمام محددة كما تفعل النماذج ثنائية المرحلة. بدلاً من ذلك، تقسم الصورة إلى شبكة وتستخدم مربعات محددة مسبقًا، تسمى مربعات الربط، جنبًا إلى جنب مع خرائط الميزات للتنبؤ بالأشياء عبر الصورة بأكملها في خطوة واحدة. 

في الوقت الحاضر، تستكشف نماذج الكشف عن الأجسام المتطورة أساليب خالية من المراسي. على عكس النماذج التقليدية أحادية المرحلة التي تعتمد على مربعات مراسي محددة مسبقًا، تتنبأ النماذج الخالية من المراسي بمواقع الأجسام وأحجامها مباشرةً من خرائط الميزات. يمكن أن يؤدي ذلك إلى تبسيط البنية، وتقليل الأعباء الحسابية، وتحسين الأداء، خاصةً عند الكشف عن أجسام ذات أشكال وأحجام متنوعة.

نظرة على أفضل نماذج الكشف عن الأشياء

اليوم، هناك العديد من نماذج الكشف عن الأشياء، كل منها مصمم لغرض محدد. بعضها مُحسّن للأداء في الوقت الفعلي، بينما يركز البعض الآخر على تحقيق أعلى دقة. غالبًا ما يعتمد اختيار النموذج المناسب لحل الرؤية الحاسوبية على حالة الاستخدام الخاصة بك ومتطلبات الأداء.

بعد ذلك، دعونا نستكشف بعضًا من أفضل نماذج الكشف عن الأشياء لعام 2025. 

1.YOLO Ultralytics YOLO

تعد عائلةYOLO Ultralytics YOLO واحدة من أكثر عائلات نماذج الكشف عن الكائنات استخدامًا في الوقت الحالي. تحظى YOLO التي تعني You Only Look Once (تنظر مرة واحدة فقط)، بشعبية واسعة في مختلف الصناعات لأنها توفر أداءً قويًا في الكشف مع كونها سريعة وموثوقة وسهلة الاستخدام.

تشملYOLO Ultralytics YOLO ما يلي Ultralytics YOLOv5، Ultralytics YOLOv8، Ultralytics YOLO11، و Ultralytics المرتقب، مما يوفر مجموعة من الخيارات لمتطلبات الأداء وحالات الاستخدام المختلفة. بفضل تصميمها الخفيف الوزن وتحسين سرعتها، تعدYOLO Ultralytics YOLO مثالية للكشف في الوقت الفعلي ويمكن نشرها على أجهزة حافة الشبكة ذات القوة الحاسوبية والذاكرة المحدودة.

الشكل 3. استخدام Ultralytics YOLO11 الكائنات (المصدر)

بالإضافة إلى الكشف الأساسي عن الأشياء، تتميز هذه النماذج بمرونتها العالية. كما أنها تدعم مهام مثل تقسيم المثيلات، الذي يحدد الأشياء على مستوى البكسل، وتقدير الوضع، الذي يحدد النقاط الرئيسية على الأشخاص أو الأشياء. هذه المرونة تجعلYOLO Ultralytics YOLO خيارًا مثاليًا لمجموعة واسعة من التطبيقات، من الزراعة واللوجستيات إلى البيع بالتجزئة والتصنيع.

سبب آخر رئيسي لشعبيةYOLO Ultralytics YOLO هو Python Ultralytics Python التي توفر واجهة بسيطة وسهلة الاستخدام لتدريب النماذج وضبطها ونشرها. يمكن للمطورين البدء بأوزان مدربة مسبقًا، وتخصيص النماذج لمجموعات البيانات الخاصة بهم، ونشرها ببضع أسطر من التعليمات البرمجية.

2. RT-DETR RT-DETRv2

RT‑DETR (محول الكشف في الوقت الحقيقي) و RT‑DETRv2 الأحدث هما نموذجان للكشف عن الكائنات مصممان للاستخدام في الوقت الحقيقي. على عكس العديد من النماذج التقليدية، يمكنهما التقاط صورة وإعطاء نتائج الكشف النهائية مباشرةً دون استخدام تقنية عدم القمع الأقصى (NMS).

NMS خطوة تزيل المربعات المتداخلة الزائدة عندما يتنبأ النموذج بنفس الكائن أكثر من مرة. تخطي NMS عملية الكشف أبسط وأسرع.

تجمع هذه النماذج بين الشبكات العصبية التوافقية (CNN) والمحولات. تكتشف الشبكة العصبية التوافقية التفاصيل البصرية مثل الحواف والأشكال، بينما المحول هو نوع من الشبكات العصبية التي يمكنها النظر إلى الصورة بأكملها دفعة واحدة وفهم كيفية ارتباط الأجزاء المختلفة ببعضها البعض. يتيح هذا الفهم الشامل للنموذج detect القريبة من بعضها أو المتداخلة.

يعمل RT‑DETRv2 على تحسين النموذج الأصلي من خلال ميزات مثل الكشف متعدد المقاييس، الذي يساعد في العثور على الأجسام الصغيرة والكبيرة على حد سواء، والتعامل بشكل أفضل مع المشاهد المعقدة. تحافظ هذه التغييرات على سرعة النموذج مع تحسين الدقة.

3. RF-DETR

RF‑DETR هو نموذج قائم على المحولات يعمل في الوقت الفعلي، وهو مصمم لدمج دقة بنى المحولات مع السرعة اللازمة للتطبيقات الواقعية. ومثل RT‑DETR و RT‑DETRv2، فإنه يستخدم محولًا لتحليل الصورة بأكملها وشبكة CNN لاستخراج الميزات البصرية الدقيقة مثل الحواف والأشكال والأنسجة. 

يتنبأ النموذج بالأجسام مباشرة من الصورة المدخلة، متخطياً مربعات التثبيت وقمع غير الأقصى، مما يبسط عملية الكشف ويحافظ على سرعة الاستدلال. يدعم RF‑DETR أيضًا تجزئة المثيلات، مما يسمح له بتحديد الأجسام على مستوى البكسل بالإضافة إلى التنبؤ بمربعات الحدود.

4. كفاءة 

تم إصدار EfficientDet في أواخر عام 2019، وهو نموذج للكشف عن الكائنات مصمم لتحقيق كفاءة في التوسع وأداء عالٍ. ما يميز EfficientDet هو التوسع المركب، وهي طريقة تعمل على توسيع دقة الإدخال وعمق الشبكة وعرض الشبكة في وقت واحد بدلاً من تعديل عامل واحد فقط. تساعد هذه الطريقة النموذج على الحفاظ على دقة مستقرة سواء تم توسيعه لمهام عالية الأداء أو تقليصه لنشرات خفيفة الوزن.

مكون آخر مهم في EfficientDet هو شبكة هرم الميزات الفعالة (FPN)، التي تسمح للنموذج بتحليل الصور على مستويات متعددة. هذا التحليل متعدد المستويات مهم جدًا لاكتشاف الأشياء بأحجام مختلفة، مما يسمح لـ EfficientDet بتحديد الأشياء الصغيرة والكبيرة في نفس الصورة بشكل موثوق.

5. PP-YOLOE+

تم إصدار PP-YOLOE+ في عام 2022، وهو نموذج للكشف عن الكائنات YOLO، مما يعني أنه يكتشف الكائنات ويصنفها في مسار واحد عبر الصورة. هذا النهج يجعله سريعًا ومناسبًا للتطبيقات في الوقت الفعلي، مع الحفاظ على دقة عالية.

أحد التحسينات الرئيسية في PP-YOLOE+ هو التعلم المتوافق مع المهام، والذي يساعد درجات الثقة في النموذج على عكس مدى دقة تحديد مواقع الأجسام. وهذا مفيد بشكل خاص في اكتشاف الأجسام الصغيرة أو المتداخلة.

الشكل 4. اكتشاف الأجسام باستخدام PP-YOLOE+ (المصدر)

يستخدم النموذج أيضًا بنية رأس منفصلة، والتي تفصل بين مهام التنبؤ بمواقع الكائنات وتصنيفها. وهذا يسمح له برسم مربعات حدودية بدقة أكبر مع تصنيف الكائنات بشكل صحيح. 

6. التأريض DINO

GroundingDINO هو نموذج للكشف عن الأشياء يعتمد على المحولات ويجمع بين الرؤية واللغة. بدلاً من الاعتماد على مجموعة ثابتة من الفئات، يتيح للمستخدمين detect باستخدام مطالبات نصية باللغة الطبيعية. 

من خلال مطابقة الميزات المرئية من الصورة مع الأوصاف النصية، يمكن للنموذج تحديد مواقع الكائنات حتى لو لم تكن تلك التسميات المحددة موجودة في بيانات التدريب الخاصة به. وهذا يعني أنه يمكنك تزويد النموذج بأوصاف مثل "شخص يرتدي خوذة" أو "سيارة حمراء بالقرب من مبنى"، وسيقوم النموذج بإنشاء مربعات حدودية دقيقة حول الكائنات المطابقة. 

كما أن GroundingDINO، من خلال دعمه للكشف الفوري، يقلل من الحاجة إلى إعادة تدريب النموذج أو ضبطه لكل حالة استخدام جديدة، مما يجعله مرنًا للغاية عبر مجموعة واسعة من التطبيقات. هذا المزيج من فهم اللغة والتعرف البصري يفتح آفاقًا جديدة لأنظمة الذكاء الاصطناعي التفاعلية والتكيفية.

المقاييس الشائعة المستخدمة لتقييم أجهزة الكشف عن الأجسام

عند مقارنة نماذج الكشف عن الأشياء المختلفة، قد تتساءل عن كيفية تحديد النموذج الأفضل أداءً. إنه سؤال وجيه، لأن هناك العديد من العوامل التي يمكن أن تؤثر على الأداء، بالإضافة إلى بنية النموذج وجودة البيانات. 

غالبًا ما يعتمد الباحثون على معايير قياسية مشتركة ومقاييس أداء قياسية لتقييم النماذج بشكل متسق ومقارنة النتائج وفهم المفاضلات بين السرعة والدقة. تعتبر المعايير القياسية القياسية مهمة بشكل خاص لأن العديد من نماذج الكشف عن الكائنات يتم تقييمها على نفس مجموعات البيانات، مثل COCO . 

قياس دقة الكشف وسرعته

فيما يلي نظرة فاحصة على بعض المقاييس الشائعة المستخدمة لتقييم نماذج الكشف عن الكائنات:

  • تقاطع الاتحاد (IoU): يقيس هذا المقياس مدى تداخل المربع المحدد المتوقع مع الكائن الفعلي في الصورة. ويقارن المربع الذي رسمه النموذج مع مربع الحقيقة الأساسية، وهو موقع الكائن كما هو محدد في مجموعة البيانات. IoU حساب IoU على أنه مساحة التداخل مقسومة على مساحة اتحاد المربعين. IoU الأعلى IoU أن النموذج يضع المربع بشكل أكثر دقة، بينما IoU الأقل IoU التنبؤ أقل دقة. بعبارات بسيطة، IoU مدى دقة تنبؤات النموذج في مطابقة المواقع الحقيقية للأشياء.
  • متوسط الدقة المتوسط (mAP): هو المقياس الأساسي المستخدم لتقييم الأداء العام لاكتشاف الكائنات. ويأخذ في الاعتبار عدد الكائنات التي يكتشفها النموذج بشكل صحيح ودقة تلك الاكتشافات عبر مستويات ثقة وفئات كائنات مختلفة.
  • الإطارات في الثانية (FPS) ووقت الاستجابة: يُظهر FPS عدد الصور أو إطارات الفيديو التي يمكن للنموذج معالجتها في ثانية واحدة. على سبيل المثال، يمكن للنموذج الذي يعمل بسرعة 30 FPS معالجة 30 إطارًا في الثانية. يعني ارتفاع FPS أن النظام يمكنه الاستجابة بشكل أسرع، وهو أمر مهم لحالات الاستخدام مثل الفيديو المباشر أو مراقبة حركة المرور أو الروبوتات. من ناحية أخرى، يقيس زمن الاستجابة المدة التي يستغرقها النموذج لمعالجة صورة أو إطار واحد من لحظة استلامه إلى حين جاهزية النتيجة.

إيجابيات وسلبيات استخدام خوارزميات الكشف عن الأجسام

فيما يلي بعض المزايا الرئيسية لاستخدام نماذج الكشف عن الأشياء في التطبيقات الواقعية:

  • مقاييس عبر مختلف الصناعات: يمكن تطبيق الكشف عن الأشياء على مجموعة واسعة من حالات الاستخدام، من مراقبة حركة المرور وتحليلات البيع بالتجزئة إلى الرعاية الصحية والزراعة والتصنيع.
  • يقلل من الجهد اليدوي: تؤدي أتمتة مهام الفحص البصري والمراقبة إلى تقليل الحاجة إلى الإشراف البشري المستمر وتساعد الفرق على التركيز على الأعمال ذات القيمة الأعلى.
  • فوائد النظم البيئية مفتوحة المصدر: تسهل المجتمعات والموارد النشطة مفتوحة المصدر على GitHub الوصول إلى النماذج المدربة مسبقًا والتجربة وتخصيص الحلول.

على الرغم من هذه المزايا، هناك قيود عملية يمكن أن تؤثر على أداء نماذج الكشف عن الكائنات. فيما يلي بعض العوامل الهامة التي يجب أخذها في الاعتبار:

  • متطلبات البيانات عالية الجودة: تعتمد نماذج الكشف عن الأشياء على مجموعات بيانات كبيرة ومُعلّقة جيدًا للتدريب. قد يستغرق إنشاء هذه البيانات وصيانتها وقتًا طويلاً وتكون مكلفة ويصعب توسيع نطاقها.
  • المتطلبات الحسابية: غالبًا ما تتطلب النماذج التي توفر دقة كشف أعلى قدرة معالجة كبيرة، سواء أثناء التدريب أو النشر في الوقت الفعلي. وهذا يعني عادةً استخدام وحدات معالجة رسومات (GPU) عالية الأداء، مما قد يزيد من تكاليف البنية التحتية.
  • الحساسية تجاه الظروف الواقعية: يمكن أن تؤثر التغيرات في الإضاءة وزوايا الكاميرا والطقس والمشاهد المزدحمة على أداء الكشف، مما يجعل من الضروري إجراء اختبارات وتعديلات مستمرة.

النقاط الرئيسية 

يعتمد أفضل نموذج لاكتشاف الكائنات لمشروع الرؤية الحاسوبية الخاص بك على حالة الاستخدام وإعداد البيانات ومتطلبات الأداء وقيود الأجهزة. تم تحسين بعض النماذج من حيث السرعة، بينما تركز نماذج أخرى على الدقة، وتحتاج معظم التطبيقات الواقعية إلى توازن بين الاثنين. بفضل الأطر مفتوحة المصدر والمجتمعات النشطة على GitHub، أصبح من السهل تقييم هذه النماذج وتكييفها ونشرها للاستخدام العملي.

لمعرفة المزيد، استكشف مستودع GitHub الخاص بنا. انضم إلى مجتمعنا وتصفح صفحات الحلول الخاصة بنا للاطلاع على تطبيقات مثل الذكاء الاصطناعي في الرعاية الصحية والرؤية الحاسوبية في صناعة السيارات. اكتشف خيارات الترخيص المتاحة لدينا لبدء استخدام Vision AI اليوم.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا