اكتشف كيف يتيح Ultralytics استنتاجًا حقيقيًا شاملاً NMS ولماذا يؤدي إزالة المعالجة اللاحقة إلى تبسيط التصدير والنشر المتطور.

اكتشف كيف يتيح Ultralytics استنتاجًا حقيقيًا شاملاً NMS ولماذا يؤدي إزالة المعالجة اللاحقة إلى تبسيط التصدير والنشر المتطور.

في 14 يناير، أطلقنا Ultralytics أحدث جيل من نماذج الرؤية الحاسوبية الخاصة بنا. مع YOLO26، لم يكن هدفنا فقط تحسين الدقة أو السرعة، بل إعادة التفكير في كيفية بناء نماذج الكشف عن الكائنات ونشرها في الأنظمة الواقعية.
مع انتقال الرؤية الحاسوبية من مرحلة البحث إلى مرحلة الإنتاج، يتزايد توقع تشغيل النماذج على وحدات المعالجة المركزية (CPU) والأجهزة الطرفية والكاميرات والروبوتات والأجهزة المدمجة. في هذه البيئات، تكتسب الموثوقية والكمون المنخفض وسهولة النشر أهمية لا تقل عن الأداء.
تم تصميم YOLO26 مع أخذ هذه الحقيقة في الاعتبار، باستخدام بنية مبسطة من البداية إلى النهاية تزيل التعقيدات غير الضرورية من خط أنابيب الاستدلال. أحد أهم الابتكارات في YOLO26 هو إزالة Non-Maximum Suppression، المعروف باسم NMS.
لسنوات طويلة، NMS جزءًا أساسيًا من أنظمة الكشف عن الأجسام، حيث NMS يستخدم كخطوة ما بعد المعالجة لتنظيف عمليات الكشف المكررة. ورغم فعاليته، إلا أنه كان يطرح تحديات إضافية في الحوسبة والنشر، خاصة على الأجهزة الطرفية.
مع YOLO26، اتبعنا نهجًا مختلفًا. من خلال إعادة التفكير في كيفية إنشاء التنبؤات وتدريبها، نتيح استنتاجًا حقيقيًا شاملاً NMS. ينتج النموذج عمليات الكشف النهائية مباشرةً، دون الاعتماد على خطوات تنظيف خارجية أو قواعد مصممة يدويًا. وهذا يجعل YOLO26 أسرع وأسهل في التصدير وأكثر موثوقية في النشر عبر مجموعة واسعة من منصات الأجهزة.

في هذه المقالة، سنلقي نظرة فاحصة على الأسباب التي جعلت الكشف التقليدي عن الكائنات يعتمد على NMS، وكيف أصبح ذلك عائقًا أمام النشر، وكيف يلغي YOLO26 الحاجة إلى الحلول البديلة. هيا بنا نبدأ!
قبل أن نتعمق في NMS ولماذا قمنا بإزالته في YOLO26، دعونا نرجع خطوة إلى الوراء ونلقي نظرة على كيفية قيام نماذج الكشف عن الكائنات التقليدية بإنشاء تنبؤاتها.
غالبًا ما تنتج نماذج الكشف عن الكائنات التقليدية عدة مربعات متداخلة لنفس الكائن. كل مربع من هذه المربعات يأتي مع درجة ثقة خاصة به، على الرغم من أنها تشير جميعها إلى نفس الكائن في الصورة.
يحدث هذا لعدة أسباب. أولاً، يقوم النموذج بعمل تنبؤات في العديد من المواقع المكانية وعلى مستويات مختلفة في نفس الوقت. وهذا يساعد النموذج detect ذات أحجام مختلفة، ولكنه يعني أيضاً أن المواقع القريبة يمكنها جميعاً تحديد الكائن نفسه بشكل مستقل.
ثانياً، تستخدم العديد من أنظمة الكشف عن الأجسام نُهجاً قائمة على المراسي، والتي تولد عدداً كبيراً من المربعات المرشحة حول كل موقع. ورغم أن هذا يحسن فرصة العثور على الأجسام بدقة، إلا أنه يزيد أيضاً من عدد التنبؤات المتداخلة.
أخيرًا، يؤدي الكشف القائم على الشبكة في حد ذاته إلى التكرار بشكل طبيعي. عندما يقع كائن ما بالقرب من حدود عدة خلايا شبكية، قد تتنبأ عدة خلايا بوجود مربع لهذا الكائن، مما يؤدي إلى تداخل عدة عمليات كشف.
وبسبب ذلك، غالبًا ما يحتوي الناتج الأولي للنموذج على عدة مربعات لكائن واحد. ولجعل النتائج قابلة للاستخدام، يجب تصفية هذه التنبؤات الزائدة بحيث يبقى اكتشاف نهائي واحد فقط.
بمجرد أن ينتج نموذج الكشف عن الكائنات عدة مربعات متداخلة لنفس الكائن، يجب تنظيف هذه النتائج قبل استخدامها. وهنا يتم تطبيق تقنية Non-Maximum Suppression.
القمع غير الأقصى هو خطوة معالجة لاحقة يتم تنفيذها بعد انتهاء النموذج من إجراء تنبؤاته. والغرض منه هو تقليل عمليات الكشف المكررة بحيث يتم تمثيل كل كائن بمربع حدود نهائي واحد.

تعمل هذه العملية من خلال مقارنة المربعات المحيطة بناءً على درجات الثقة فيها ومدى تداخلها. يتم أولاً إزالة التوقعات ذات الثقة المنخفضة جدًا.
ثم يتم فرز الصناديق المتبقية حسب الثقة، ويتم اختيار الصندوق الذي حصل على أعلى درجة باعتباره أفضل اكتشاف. ويتم مقارنة الصندوق المختار مع الصناديق الأخرى.
إذا كان هناك مربع آخر يتداخل معه بشكل كبير، يتم إخفاء هذا المربع وإزالته. عادةً ما يتم قياس التداخل باستخدام Intersection over Union، وهو مقياس يحسب النسبة بين المساحة المشتركة بين مربعين والمساحة الإجمالية التي يغطيها كلاهما. تتكرر هذه العملية حتى يتبقى فقط الاكتشافات الأكثر دقة والتي لا تتداخل.
في حين أن تقنية Non-Maximum Suppression تساعد في تصفية عمليات الكشف المكررة، فإنها تجلب أيضًا تحديات تصبح أكثر وضوحًا بمجرد انتقال النماذج من مرحلة البحث إلى مرحلة التطبيق في العالم الواقعي.
أحد أكبر المشكلات هو الأداء. NMS بعد الاستدلال ويتطلب مقارنة المربعات المحيطة ببعضها البعض لتحديد أيها يجب الاحتفاظ به.
هذه العملية مكلفة من الناحية الحسابية ويصعب تنفيذها بشكل متوازٍ بكفاءة. على الأجهزة الطرفية والأنظمة CPU، يمكن أن يؤدي هذا العمل الإضافي إلى زيادة زمن الاستجابة بشكل ملحوظ، مما يجعل من الصعب تلبية متطلبات الوقت الفعلي.
NMS يزيد من تعقيد النشر. ولأنه ليس جزءًا من النموذج نفسه، يجب تنفيذه بشكل منفصل كرمز معالجة لاحقة.
تتعامل أنظمة التشغيل والمنصات المختلفة NMS مما يعني في كثير من الأحيان الحاجة إلى الحفاظ على تطبيقات مخصصة لكل بيئة مستهدفة. ما يعمل في إعداد ما قد يعمل بشكل مختلف قليلاً في إعداد آخر، مما يجعل النشر أكثر هشاشة وأصعب في التوسع.
يعد تحسين الأجهزة تحديًا آخر. NMS يتوافق NMS بشكل واضح مع مسرعات الذكاء الاصطناعي المتخصصة، والتي تم تصميمها لتشغيل عمليات الشبكات العصبية بكفاءة. ونتيجة لذلك، حتى عندما يعمل النموذج بسرعة على أجهزة محسّنة، NMS يصبح NMS عقبة تعيق الأداء العام.
بالإضافة إلى هذه العوامل، NMS على معلمات يتم اختيارها يدويًا مثل عتبات الثقة وعتبات التداخل. يمكن أن تؤثر هذه الإعدادات على النتائج بشكل كبير، وغالبًا ما تحتاج إلى ضبطها وفقًا لمجموعات البيانات أو التطبيقات أو الأجهزة المختلفة. وهذا يجعل السلوك أقل قابلية للتنبؤ في أنظمة الإنتاج ويضيف عبئًا إضافيًا على التكوين.
دفعتنا قيود تقنية Non-Maximum Suppression إلى إعادة التفكير في الكيفية التي يجب أن تعمل بها نماذج الكشف عن الأجسام في وقت الاستدلال. بدلاً من إنشاء العديد من التنبؤات المتداخلة وتنظيفها لاحقًا، طرحنا سؤالاً أكثر جوهرية.
ماذا لو كان بإمكان النموذج إنتاج نتائج الكشف النهائية مباشرة؟ هذا السؤال هو جوهر الاستدلال الشامل للكشف عن الأجسام. في نظام شامل، يتم تدريب النموذج على التعامل مع عملية الكشف بأكملها من البداية إلى النهاية، دون الاعتماد على خطوات تنظيف خارجية.
بدلاً من إنتاج العديد من المربعات المرشحة وتصفيتها بعد الاستدلال، يتعلم النموذج توليد مجموعة صغيرة من التنبؤات الموثوقة وغير المتداخلة من تلقاء نفسه. يتم حل حالات الكشف المكررة داخل الشبكة بدلاً من إزالتها عن طريق المعالجة اللاحقة.
أظهرت بنى النماذج الأحدث أن هذا النهج كان ممكناً وعملياً. مع استراتيجية التدريب الصحيحة، يمكن للنماذج أن تتعلم ربط كل كائن بتنبؤ واحد بدلاً من العديد من التنبؤات المتنافسة، مما يقلل التكرار من مصدره.

ولكي ينجح ذلك، يجب أن يتغير التدريب أيضًا. فبدلاً من السماح للعديد من التوقعات بالتنافس على نفس الهدف، يتعلم النموذج اتخاذ قرار واحد واضح، مما ينتج عنه عدد أقل من عمليات الكشف وأكثر ثقة.
والنتيجة الإجمالية هي خط أنابيب استدلال أبسط. ونظرًا لأن التكرارات قد تم حلها داخليًا بالفعل، فلا داعي لإجراء عملية عدم قمع الحد الأقصى في وقت الاستدلال. إن ناتج النموذج هو بالفعل المجموعة النهائية من عمليات الكشف.
هذا التصميم الشامل يجعل عملية النشر أسهل. بدون خطوات معالجة لاحقة أو NMS خاصة بالمنصة، يكون النموذج المصدّر مستقلاً تمامًا ويعمل بشكل متسق عبر أطر الاستدلال المختلفة والأجهزة المستهدفة.
كما يوضح فرانشيسكو ماتيولي، كبير مهندسي الشراكات لدينا، "التعلم الشامل الحقيقي يعني أن النموذج يجب أن يتعامل مع كل شيء بدءًا من البكسلات وحتى التنبؤات، دون الحاجة إلى خطوات معالجة لاحقة يدوية تكسر قابلية التمييز وتعقد عملية النشر."
يزيل YOLO26 تقنية Non-Maximum Suppression عن طريق تغيير طريقة تعلم الكشف وإنتاجه، بدلاً من الاعتماد على المعالجة اللاحقة لتنظيفها. بدلاً من السماح للعديد من التنبؤات بالتنافس على نفس الكائن، يتم تدريب YOLO26 على تعلم علاقة واضحة بين الكائنات والمخرجات.
وقد تم تمكين ذلك جزئياً من خلال الكشف القائم على الاستعلام القابل للتعلم، والذي يساعد النموذج على التركيز على إنتاج تنبؤ واحد موثوق لكل كائن بدلاً من العديد من المرشحين المتداخلين. يرتبط كل كائن بتنبؤ واحد، مما يقلل بشكل طبيعي من عمليات الكشف المكررة.
يتم تعزيز هذا السلوك من خلال استراتيجيات مطابقة متسقة أثناء التدريب، مما يشجع النموذج على اتخاذ قرار واحد واثق لكل كائن بدلاً من إنشاء تنبؤات متداخلة. في النهاية، ينتج النموذج عددًا أقل من التنبؤات، ولكن كل واحد منها يمثل اكتشافًا نهائيًا.
هناك ابتكار مهم آخر يتيح الاستدلال NMS في YOLO26 وهو إزالة Distribution Focal Loss أو DFL. في YOLO السابقة، كان DFL يستخدم لتحسين انحدار مربع الحدود من خلال توقع توزيع مواقع المربعات المحتملة بدلاً من قيمة واحدة.
على الرغم من أن هذا النهج حسّن دقة تحديد الموقع، إلا أنه أضاف تعقيدًا إلى عملية الكشف. وأصبح هذا التعقيد عائقًا عند الانتقال إلى الاستدلال الشامل الحقيقي.
أدخلت DFL حسابات إضافية ونطاقات انحدار ثابتة، مما زاد من صعوبة تعلم النموذج لتخصيص الكائنات بشكل نظيف وفردي وزاد من الاعتماد على خطوات المعالجة اللاحقة مثل Non-Maximum Suppression. مع YOLO26، قمنا بإزالة DFL وأعدنا تصميم انحدار المربع المحيط ليكون أبسط وأكثر مباشرة.
بدلاً من الاعتماد على المخرجات القائمة على التوزيع، يتعلم النموذج توقع إحداثيات الصندوق بدقة بطريقة تدعم عمليات الكشف الأقل عددًا والأكثر ثقة. يساعد هذا التغيير في تقليل التداخل بين التوقعات من مصدرها ويوائم انحدار الصندوق المحيط مع تصميم YOLO26 الشامل NMS.
تصميم NMS يجعل YOLO26 نموذجًا شاملاً بالفعل. وهذا له تأثير مهم على تصدير النماذج.
التصدير يعني تحويل نموذج مدرب إلى تنسيق يمكن تشغيله خارج بيئة التدريب، مثل ONNX أو TensorRT أو CoreML أو OpenVINO. في خطوط الإنتاج التقليدية، غالبًا ما تفشل هذه العملية لأن Non-Maximum Suppression ليس جزءًا من النموذج نفسه.
من خلال إزالة NMS يتجنب YOLO26 هذه المشكلة تمامًا. يتضمن النموذج المصدّر بالفعل كل ما يلزم لإنتاج عمليات الكشف النهائية.
وهذا يجعل النموذج المصدّر مستقلاً تمامًا وأكثر قابلية للنقل عبر أطر الاستدلال والأجهزة المستهدفة. يتصرف النموذج نفسه بشكل متسق سواء تم نشره على الخوادم أو الأنظمة CPU أو الأجهزة المدمجة أو مسرعات الحافة. يصبح النشر أكثر بساطة لأن ما تصدره هو بالضبط ما تقوم بتشغيله.
هذه البساطة مهمة بشكل خاص للتطبيقات المتطورة. على سبيل المثال، يمكن نشر YOLO26 بسهولة على أجهزة مثل الطائرات بدون طيار لاستخدامها في حالات مثل مراقبة المحاصيل، وتفتيش الحقول، وتحليل صحة النباتات، حيث تجعل ميزانيات الحوسبة والطاقة المحدودة عمليات المعالجة اللاحقة المعقدة غير عملية. ونظرًا لأن النموذج ينتج عمليات الكشف النهائية مباشرةً، فإنه يعمل بشكل موثوق على أجهزة خفيفة الوزن دون خطوات معالجة إضافية.

باختصار، يزيل الاستدلال NMS الاحتكاك من التصدير والنشر ويتيح أنظمة رؤية أنظف وأكثر موثوقية. NMS حلاً بديلاً. لم يعد YOLO26 بحاجة إلى حلول بديلة.
يزيل YOLO26 تقنية Non-Maximum Suppression ( NMS ) من خلال حل المشكلة الأساسية المتمثلة في اكتشافات مكررة، بدلاً من تنظيفها بعد حدوثها. يسمح تصميمه الشامل للنموذج بإنتاج اكتشافات نهائية مباشرة، مما يجعل التصدير والنشر أكثر بساطة واتساقًا عبر الأجهزة المختلفة. NMS حلاً مفيدًا للأنظمة السابقة، ولكن YOLO26 لم يعد بحاجة إليها.
انضم إلى مجتمعنا وتصفح مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. استكشف صفحات الحلول الخاصة بنا حول الذكاء الاصطناعي في الزراعة والرؤية الحاسوبية في تجارة التجزئة. اكتشف خيارات الترخيص لدينا وابدأ باستخدام Vision AI اليوم!