تجزئة المثيل: دليل سريع

أصبحت تطبيقات رؤية الحاسوب أكثر شيوعًا في حياتنا اليومية، بدءًا من كاميرات المرور التي تراقب أحوال الطريق وحتى أنظمة الدفع الذاتي في المتاجر. من خلال تمكين الآلات من فهم البيانات المرئية بطريقة مشابهة للبشر، تُحدث رؤية الذكاء الاصطناعي تأثيرًا في مجموعة من الصناعات.

تعتمد العديد من هذه التطبيقات على اكتشاف الكائنات، وهي مهمة رؤية حاسوبية تضع مربعات إحاطة حول الكائنات الرئيسية في الصور. في حين أن هذا النهج غالبًا ما يعمل بشكل جيد، إلا أن بعض حلول تحليل الصور تحتاج إلى دقة أكبر.

على سبيل المثال، يتطلب التصوير الطبي أكثر من مجرد اكتشاف ورم - من الضروري تحديد شكله الدقيق. وبالمثل، في مجال الروبوتات، تحتاج الآلات إلى التعرف على الخطوط الدقيقة للكائن لفهمه بشكل صحيح. ولمعالجة هذه التحديات، يقدم تجزئة المثيل حلاً أكثر دقة.

تجزئة المثيل هي مهمة رؤية حاسوبية مصممة لدعم حالات الاستخدام التي لا يكفي فيها اكتشاف الأجسام - فهي توفر دقة على مستوى البكسل. نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 لتطبيق تجزئة المثيل على الصور ومقاطع الفيديو بسهولة.

__wf_reserved_inherit — الشكل 1. مثال على استخدام YOLO11 لتجزئة المثال.

‍

في هذا الدليل، سنقوم بتفصيل كيفية عمل تجزئة النماذج، وتطبيقاته، وكيف يمكن تدريب Ultralytics YOLO11 بشكل مخصص لمهام تجزئة محددة.

ما هو تقسيم الحالات (Instance Segmentation)؟

لنفترض أن هناك صورة جماعية لأشخاص يقفون بالقرب من بعضهم البعض. يمكن أن يساعد اكتشاف الكائنات في رسم مربعات حول كل شخص، لكن هذا لا يخبرك بالشكل الدقيق لكل منهم.

تجزئة المثيلات، من ناحية أخرى، تشبه التتبع الدقيق حول كل شخص حتى تتمكن من رؤية مخططهم الكامل، حتى لو كانوا متداخلين. بدلاً من مجرد تحديد مكان وجود شيء ما بمربع، فإنه يحدد الشكل الدقيق لكل كائن على مستوى البكسل، مما يسهل فهم الصور المعقدة.

والنتيجة هي قناع مفصل يملأ شكل الكائن، ويحدد بدقة وحدات البكسل التي تنتمي إليه. هذا المستوى من الدقة مفيد في العديد من التطبيقات الواقعية حيث يكون فهم الشكل والحدود الدقيقة للكائنات أمرًا مهمًا.

‍

تجزئة المثيل مقابل التجزئة الدلالية

أثناء استكشاف تجزئة المثيلات، قد تصادف مفهوم التجزئة الدلالية.

تساعد كلتا التقنيتين أجهزة الكمبيوتر على فهم الصور على مستوى البكسل، لكنهما تخدمان أغراضًا مختلفة. يقوم تجزئة المعنى بتسمية كل بكسل بناءً على فئته، وتجميع جميع الكائنات من نفس النوع معًا. على سبيل المثال، في صورة بها سيارات متعددة، سيقوم تجزئة المعنى بتمييزها جميعًا على أنها "سيارة" دون تمييز بين المركبات الفردية.

من ناحية أخرى، يأخذها تجزئة المثيل خطوة إلى الأمام من خلال تحديد كل كائن على حدة. يقوم بتعيين تسميات فريدة للمثيلات الفردية وإنشاء أقنعة دقيقة حول أشكالها. لذلك في نفس الصورة، لن يصنف تجزئة المثيل كل شيء على أنه "سيارة" فحسب، بل سيتعرف على كل سيارة ويحددها بشكل فردي.

الفرق الرئيسي بين الاثنين هو أن التقسيم الدلالي يجمع الكائنات حسب الفئة، بينما يميز تقسيم المثيل كل كائن ككيان فريد بحدود واضحة. يعتمد اختيار المهمة التي سيتم استخدامها على التطبيق المحدد - سواء كان يكفي معرفة ما هو موجود في الصورة أو إذا كان من المهم التمييز بين الكائنات الفردية.

‍

نماذج تجزئة المثيلات الشائعة

تتوفر العديد من نماذج تجزئة المثيلات لمجتمع Vision AI في الوقت الحاضر. بعضها أسرع، وبعضها أكثر دقة، وبعضها أسهل في الاستخدام.

قد تؤدي هذه الخيارات على الرغم من فائدتها إلى طرح السؤال، أيهما الخيار المناسب لاستخدامه في مهمة معينة؟ من بين الخيارات، تحظى نماذج Ultralytics YOLO بشعبية كبيرة لأنها تركز على السرعة والدقة.

كما تطورت هذه النماذج بشكل كبير على مر السنين. على سبيل المثال Ultralytics YOLOv5 نشرًا مبسطًا باستخدام أطر عمل مثل PyTorch مما جعل الذكاء الاصطناعي المتقدم للرؤية في متناول جمهور أوسع دون الحاجة إلى خبرة تقنية عميقة.

بناءً على هذا النجاح Ultralytics YOLOv8 دعمًا محسّنًا لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتقدير الوضعية وتصنيف الصور.

والآن، يرتقي YOLO11 بالأداء إلى مستوى جديد. فهو يحقق متوسط دقة متوسط أعلىmAP) على مجموعة بيانات COCO بمعلمات أقل بنسبة 22% من YOLOv8m مما يعني أنه يمكنه التعرف على الكائنات بدقة أكبر مع استخدام موارد أقل.

‍

ببساطة، يوفر YOLO11 دقة فائقة دون المساومة على الكفاءة، مما يجعله مغيرًا لقواعد اللعبة في هذا المجال.

فهم كيفية عمل تجزئة المثيل

بعد ذلك، دعنا نستكشف كيف يعمل تجزئة المثيلات عادةً. تستخدم نماذج رؤية الكمبيوتر الأقدم نهجًا من خطوتين.

أولاً، detect الأجسام عن طريق رسم مربعات محددة حولها. بعد ذلك، يقومون بإنشاء قناع على مستوى البكسل لتحديد الشكل الدقيق لكل كائن. أحد الأمثلة المعروفة هي Mask R-CNN، والتي تعتمد على نماذج اكتشاف الكائنات من خلال إضافة خطوة التنبؤ بالقناع. في حين أن هذه الطريقة فعالة، إلا أنها قد تكون بطيئة لأنها تعالج الصورة على مراحل متعددة، مما يجعل التطبيقات في الوقت الحقيقي أكثر صعوبة.

وفي الوقت نفسه، تقوم نماذج مثل YOLO11 بمعالجة الصور دفعة واحدة، والتنبؤ بالمربعات المحيطة بالكائنات وأقنعة تجزئة النماذج في نفس الوقت. هذا النهج المبسط يجعلها أسرع بكثير مع الحفاظ على دقة عالية. ونتيجة لذلك، فهي مفيدة بشكل خاص للتطبيقات في الوقت الحقيقي مثل القيادة الذاتية وتحليل الفيديو والروبوتات، حيث تكون السرعة والدقة أمرًا بالغ الأهمية.

تدريب مخصص YOLO11 على سبيل المثال تجزئة YOLO11

خارج الصندوق، يأتي YOLO11 كنموذج مُدرَّب مسبقًا. وقد تم تدريبه على مجموعة بياناتCOCO والتي تغطي الكائنات اليومية لتجزئة الكائنات على سبيل المثال. ومع ذلك، فإن حزمة Ultralytics Python تدعم التدريب المخصص، وهو أمر ضروري للتطبيقات المتخصصة التي تحتاج إلى تجزئة كائنات فريدة من نوعها.

لماذا يعتبر التدريب المخصص أو الضبط الدقيق للنموذج أمرًا مهمًا؟ التدريب المخصص يستفيد من التعلم بالنقل من خلال البناء على المعرفة المضمنة بالفعل في النماذج المدربة مسبقًا. بدلاً من البدء من الصفر، فإنه يكيف نموذجًا موجودًا لمهام جديدة باستخدام مجموعات بيانات أصغر وموارد حوسبة أقل، كل ذلك مع الحفاظ على دقة عالية.

كيفية تدريب YOLO11 المخصص

فيما يلي نظرة فاحصة على الخطوات المتبعة في ضبط YOLO11 على سبيل المثال تجزئة YOLO11 :

إعداد البيانات: جمع الصور والتعليق عليها بناءً على تطبيقك الخاص. يوفر Ultralytics دعمًا لمجموعات بيانات صور متعددة، ولكن يمكنك أيضًا التدريب باستخدام مجموعة البيانات الخاصة بك عن طريق إعداد الصور والشروح التوضيحية بتنسيق YOLO المطلوب.
‍
استخدام نموذج مدرب مسبقًا: بدلًا من البدء من الصفر، استخدم نموذج Ultralytics YOLO11 المدرب مسبقًا.
‍
تدريب النموذج: اضبط إعدادات التدريب الحيوية مثل حجم الدفعة (الصور التي تتم معالجتها لكل تكرار)، وحجم الصورة (دقة الإدخال المستهدفة)، والحقب (إجمالي دورات التدريب) وقم بتدريب النموذج.
‍
تقييم الأداء: بعد اكتمال تدريب النموذج، يمكنك اختبار دقة النموذج باستخدام مقاييس الأداء مثل mAP. توفر حزمة Ultralytics Python أيضًا وظائف مدمجة لتقييم النموذج.

تطبيقات تجزئة المثيل الممكّنة بواسطة YOLO11

يمكن استخدام تجزئة المثيل لحل تحديات العالم الحقيقي من خلال مساعدة الآلات على رؤية وفهم الكائنات بدقة أكبر. من تحسين الأتمتة إلى حماية البيئة، فإنه يلعب دورًا رئيسيًا في العديد من المجالات. دعنا نستعرض بعض الأمثلة على تأثيره.

سلامة ومراقبة مواقع الإنشاءات باستخدام YOLO11

يمكن أن يكون تجزئة المثيل جزءًا مهمًا من ضمان السلامة والكفاءة في مواقع البناء. على سبيل المثال، يمكن استخدامه لمراقبة الآلات الثقيلة.

يمكن ضبط YOLO11 بدقة segment وتحديد أنواع مختلفة من المعدات بدقة، مثل الرافعات والحفارات والجرافات، track مواقعها في الوقت الفعلي. يسمح ذلك لمديري الموقع بالتأكد من أن الآلات تعمل بدقة داخل المناطق المحددة ولا تتعدى على المناطق التي يتواجد فيها العمال أو توجد بها مخاطر.

أيضًا، يتيح دمج هذه الحلول مع أنظمة التنبيه في الوقت الفعلي اتخاذ إجراءات تصحيحية سريعة. بالإضافة إلى ذلك، يمكن أن تساعد الرؤى التي تم جمعها في تحسين تخطيط الموقع وسير العمل، مما يقلل من المخاطر ويعزز الإنتاجية.

‍

مراقبة الحيوانات مع التجزئة و YOLO11

تساعد مراقبة سلوك الحيوان الباحثين والمزارعين والمحافظين على رعاية الحيوانات بشكل أفضل في البيئات المختلفة. يلعب تجزئة المثيل دورًا مفيدًا في هذه الأنظمة من خلال تحديد وتجزئة الحيوانات الفردية في المزارع وحدائق الحيوان والموائل الطبيعية. على عكس اكتشاف الكائنات التقليدي الذي يستخدم مربعات إحاطة، يوفر تجزئة المثيل تحديدًا على مستوى البكسل لكل حيوان، وهو أمر مفيد بشكل خاص عندما تكون الحيوانات على مقربة من بعضها البعض.

تسهل عملية التجزئة التفصيلية تتبعًا أكثر دقة للحركات والسلوكيات. يمكن التعرف على الحيوانات المتداخلة أو المتجمعة بشكل وثيق بشكل مميز، وتوفر تحليلًا أكثر دقة للتفاعلات والتقييمات الصحية وأنماط النشاط. بشكل عام، تعزز الرؤى الأعمق لسلوك الحيوان ممارسات رعاية الحيوان وإدارته.

‍

YOLO11 في تحليلات الرياضة وتتبع اللاعبين

يعد التتبع الدقيق للاعبين والأحداث جزءاً كبيراً من التحليل الرياضي. تعتمد طرق التتبع التقليدية على وضع علامات يدوية، والتي قد لا تلتقط التفاعلات التفصيلية. يمكن استخدام الرؤية الحاسوبية segment التفاصيل مثل كل لاعب وكرة وحدث رئيسي على مستوى البكسل للحصول على رؤى تفصيلية.

على سبيل المثال، يمكن أن يساعد تجزئة النماذج في detect أحداث مثل الأخطاء أو الحوادث خارج الكرة من خلال الفصل الواضح بين كل لاعب وجسم. توفر هذه المراقبة التفصيلية التي تتيحها نماذج مثل YOLO11 للمحللين معلومات أوضح لدراسة أنماط الحركة والتموضع المكاني والتفاعلات بدقة عالية. من الفوائد الرئيسية لهذه الرؤى أنها تساعد الفرق على تحسين استراتيجياتها وتعزيز الأداء العام.

إيجابيات وسلبيات تجزئة الحالات

فيما يلي بعض الفوائد الرئيسية التي يمكن أن يجلبها تجزئة المثيلات لمختلف الصناعات:

أتمتة محسنة: من خلال أتمتة مهام مثل مراقبة الجودة والسلامة، يقلل تجزئة المثيلات من الحاجة إلى التدخل اليدوي ويقلل من الخطأ البشري.
‍
فهم أفضل للمشهد: من خلال تحديد دقيق لكل كائن، يساهم تقسيم الحالات في فهم أعمق للمشاهد المعقدة، مما يدعم اتخاذ قرارات أكثر استنارة.
‍
معالجة لاحقة فعالة: تبسّط المخرجات على مستوى البكسل مهام مثل إزالة الخلفية، وعدّ العناصر، والتحليل المكاني، مما يقلل الحاجة إلى خطوات معالجة إضافية.

في حين أن هذه الفوائد تسلط الضوء على كيفية تأثير تجزئة المثيل على حالات الاستخدام المختلفة، فمن الضروري أيضًا مراعاة التحديات التي تنطوي عليها عملية التنفيذ.

فيما يلي بعض القيود الرئيسية لتجزئة المثيلات:

تحديات الشفافية: يعد تقسيم الكائنات الشفافة أو العاكسة مثل الزجاج والماء أمرًا صعبًا، مما يؤدي إلى حدود غير دقيقة.
‍
تكاليف الصيانة العامة: للحفاظ على دقة النماذج وملاءمتها، من الضروري إجراء تحديثات وضبط دقيق مستمر مع تغير الظروف البيئية ومجموعات البيانات.
‍
جهد عالٍ في إضافة التعليقات التوضيحية: يتطلب تدريب نماذج تقسيم الحالات إضافة تعليقات توضيحية مفصلة على مستوى البكسل، مما يزيد بشكل كبير من الوقت والتكلفة المتضمنة في إعداد البيانات.

النقاط الرئيسية

يمكّن تجزئة المثيل من تمييز الكائنات الفردية بدقة، حتى عندما تتداخل. من خلال التقاط حدود الكائن على مستوى البكسل، فإنه يوفر فهمًا أعمق للبيانات المرئية مقارنة بمهام الرؤية الحاسوبية التقليدية مثل اكتشاف الكائنات.

جعلت التطورات الحديثة في مجال الرؤية الحاسوبية تجزئة النماذج أسرع وأسهل في الاستخدام. على وجه الخصوص، تعمل نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 على تبسيط العملية، مما يتيح التجزئة في الوقت الفعلي بأقل قدر من الإعداد، مما يجعلها أكثر سهولة لمختلف الصناعات والتطبيقات.

هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا وتواصل مع مجتمعنا لمواصلة الاستكشاف. تعرف على الابتكارات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الرؤية الحاسوبية في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا وابدأ مشروع الرؤية الحاسوبية!

ما هو تقسيم الحالات (Instance Segmentation)؟ دليل سريع