YOLO-World: الكشف عن اللقطة الصفرية

نظرة خاطفة على عالم YOLO-World

فوائد اختيار YOLO-World

تطبيقات YOLO-World

مراقبة الجودة في التصنيع

الروبوتات

الذكاء الاصطناعي في صناعة السيارات

إدارة المخزون لمتاجر البيع بالتجزئة

استعراض الرموز البرمجية

هل لاحظت عدم اكتشاف أبواب السيارة؟

الحدود لا نهاية لها

غالباً ما تنطوي مشاريع الرؤية الحاسوبية على قضاء الكثير من الوقت في التعليق على البيانات وتدريب نماذج اكتشاف الأجسام. ولكن، قد يصبح ذلك شيئاً من الماضي قريباً. فقد أصدر مختبر الذكاء الاصطناعي في تينسنت نموذج YOLO-World، وهو نموذج لاكتشاف الأجسام في الوقت الحقيقي، وهو نموذج مفتوح المفردات في الوقت الحقيقي، في 31 يناير 2024. YOLO-World هو نموذج بدون لقطة، مما يعني أنه يمكنك تشغيل استنتاجات اكتشاف الأجسام على الصور دون الحاجة إلى تدريبه.

نماذج اللقطة الصفرية لديها القدرة على تغيير الطريقة التي نتعامل بها مع تطبيقات الرؤية الحاسوبية. في هذه المدونة، سنستكشف في هذه المدونة كيفية عمل YOLO-World واستخداماته المحتملة وسنشارك مثالاً عمليًا على كود عملي لتبدأ به.

نظرة خاطفة على عالم YOLO-World

يمكنك تمرير صورة ونص موجه يصف الأشياء التي تبحث عنها من خلال نموذج YOLO-World. على سبيل المثال، إذا كنت مهتمًا بالعثور على "شخص يرتدي قميصًا أحمر" داخل صورة، يأخذ YOLO-World هذه المدخلات ويبدأ العمل.

تجمع البنية الفريدة للنموذج بين ثلاثة عناصر رئيسية:

كاشف يستند إلى نموذج الكشف عن الأجسام YOLOv8 من Ultralytics، لتحليل المحتوى المرئي للصورة.
‍
برنامج ترميز نصي تم تدريبه مسبقًا بواسطة CLIP من OpenAI، وهو مصمم خصيصًا لفهم المطالبة النصية الخاصة بك.
‍
شبكة، وهي شبكة تجميع مسار الرؤية واللغة (RepVL-PAN)، والتي تدمج بيانات الصورة المعالجة مع بيانات النص.

يقوم كاشف YOLO بمسح صورة الإدخال الخاصة بك لتحديد الكائنات المحتملة. يقوم مشفر النص بتحويل وصفك إلى تنسيق يمكن للنموذج فهمه. ثم يتم بعد ذلك دمج هذين التدفقين من المعلومات من خلال RepVL-PAN باستخدام دمج متعدد المستويات عبر الوسائط. يتيح لـ YOLO-World اكتشاف وتحديد موقع الكائنات الموصوفة في مطالبتك بدقة داخل الصورة.

_w_f_reserved_nherit — مثال على النتائج من YOLO-World.

فوائد اختيار YOLO-World

تتمثل إحدى أكبر مزايا استخدام YOLO-World في أنك لست مضطرًا لتدريب النموذج على فئة معينة. فقد تعلم بالفعل من أزواج من الصور والنصوص، لذا فهو يعرف كيفية العثور على الأشياء بناءً على الأوصاف. يمكنك تجنب ساعات من جمع البيانات، والتعليق على البيانات، والتدريب على وحدات معالجة الرسومات باهظة الثمن، وما إلى ذلك.

إليك بعض الفوائد الأخرى لاستخدام YOLO-World:

الأداء في الوقت الحقيقي - يدعم YOLO-World الأداء في الوقت الحقيقي تمامًا مثل بنية YOLO الأصلية. إنها مثالية للتطبيقات التي تتطلب الكشف الفوري عن الأجسام مثل المركبات ذاتية القيادة وأنظمة المراقبة.
‍
تجزئة المثيل - يمكن لـ YOLO-World تحديد وفصل الأجسام في الصور بدقة، حتى لو لم يتم تدريس تلك الأجسام على وجه التحديد أثناء التدريب.
‍
الكفاءة - يجمع برنامج YOLO-World بين الدقة العالية والكفاءة الحسابية، مما يجعله عمليًا للتطبيقات الواقعية. تتيح بنيته الانسيابية إمكانية الكشف السريع عن الأجسام دون الحاجة إلى متطلبات مفرطة على طاقة المعالجة.

تطبيقات YOLO-World

يمكن استخدام نماذج YOLO-World في مجموعة متنوعة من التطبيقات. دعونا نستكشف بعضاً منها.

مراقبة الجودة في التصنيع

يتم فحص المنتجات المصنعة على خط التجميع بصريًا بحثًا عن العيوب قبل تعبئتها. وغالباً ما يتم الكشف عن العيوب يدوياً، وهو ما يستغرق وقتاً طويلاً ويمكن أن يؤدي إلى حدوث أخطاء. يمكن أن تتسبب هذه الأخطاء في مشاكل مثل ارتفاع التكاليف والحاجة إلى إصلاحات أو سحب المنتجات. للمساعدة في ذلك، تم إنشاء كاميرات رؤية آلية خاصة وأنظمة ذكاء اصطناعي لإجراء هذه الفحوصات.

تعتبر نماذج YOLO-World تقدماً كبيراً في هذا المجال. حيث يمكنهم العثور على العيوب في المنتجات حتى عندما لا يكونون قد تدربوا على تلك المشكلة المحددة باستخدام قدراتهم في اللقطة الصفرية. على سبيل المثال، يمكن لمصنع يقوم بتصنيع زجاجات المياه أن يميز بسهولة بين زجاجة محكمة الغلق بغطاء الزجاجة مقابل زجاجة لم يتم غلق الغطاء فيها أو بها عيب باستخدام YOLO-World.

الروبوتات

تسمح نماذج YOLO-World للروبوتات بالتفاعل مع البيئات غير المألوفة. دون أن يتم تدريبها على أجسام محددة قد تكون موجودة في الغرفة، لا يزال بإمكانها تحديد الأجسام الموجودة. لذا، لنفترض أن الروبوت يدخل غرفة لم يدخلها من قبل. باستخدام نموذج YOLO-Wamorld، لا يزال بإمكانه التعرف على الأشياء مثل الكراسي أو الطاولات أو المصابيح وتحديدها، على الرغم من أنه لم يتم تدريبه على تلك العناصر تحديداً.

وبالإضافة إلى اكتشاف الأجسام، يمكن لـ YOLO-World أيضاً تحديد ظروف تلك الأجسام، وذلك بفضل ميزة "المطالبة ثم الاكتشاف". على سبيل المثال، في مجال الروبوتات الزراعية، يمكن استخدامه لتحديد الثمار الناضجة مقابل الثمار غير الناضجة من خلال برمجة الروبوت للكشف عنها.

الذكاء الاصطناعي في صناعة السيارات

تنطوي صناعة السيارات على العديد من الأجزاء المتحركة، ويمكن استخدام YOLO-World في تطبيقات السيارات المختلفة. على سبيل المثال، عندما يتعلق الأمر بصيانة السيارات، فإن قدرة YOLO-World على التعرف على مجموعة واسعة من الأشياء دون الحاجة إلى وضع علامات يدوية أو تدريب مسبق مكثف مفيد للغاية. يمكن استخدام YOLO-World لتحديد أجزاء السيارة التي يجب استبدالها. ويمكنه أيضاً أتمتة مهام مثل فحص الجودة واكتشاف العيوب أو القطع المفقودة في السيارات الجديدة.

تطبيق آخر هو الكشف عن الأجسام بدون لقطة في السيارات ذاتية القيادة. يمكن لإمكانيات الكشف عن اللقطة الصفرية في YOLO-World تحسين قدرة السيارة ذاتية القيادة على اكتشاف الأجسام الموجودة على الطريق وتصنيفها، مثل المشاة وإشارات المرور والمركبات الأخرى في الوقت الفعلي. وبذلك، يمكنها المساعدة في اكتشاف العوائق ومنع الحوادث من أجل رحلة أكثر أماناً.

إدارة المخزون لمتاجر البيع بالتجزئة

يُعد التعرف على الأشياء الموجودة على الرفوف في متاجر البيع بالتجزئة جزءًا مهمًا من تتبع المخزون والحفاظ على المخزون وأتمتة العمليات. تُعد قدرة برنامج Ultralytics YOLO-World على التعرف على مجموعة واسعة من الأشياء دون وضع علامات يدوية أو تدريب مسبق مكثف مفيد للغاية لإدارة المخزون.

على سبيل المثال، في مجال إدارة المخزون، يمكن لـ YOLO-World تحديد العناصر الموجودة على الرف وتصنيفها بسرعة، مثل العلامات التجارية المختلفة لمشروبات الطاقة. يمكن لمتاجر البيع بالتجزئة الاحتفاظ بمخزون دقيق، وإدارة مستويات المخزون بكفاءة، وتسهيل عمليات سلسلة التوريد.

جميع التطبيقات فريدة من نوعها وتوضح مدى إمكانية استخدام YOLO-World على نطاق واسع. بعد ذلك، دعنا نبدأ بالتدريب العملي على YOLO-World ونلقي نظرة على مثال ترميز.

استعراض الرموز البرمجية

كما ذكرنا من قبل، يمكن استخدام برنامج YOLO-World للكشف عن الأجزاء المختلفة للسيارة من أجل صيانتها. سيتضمن تطبيق الرؤية الحاسوبية الذي يكتشف أي إصلاحات مطلوبة التقاط صورة للسيارة، وتحديد أجزاء السيارة، وفحص كل جزء من أجزاء السيارة بحثاً عن أي تلف، والتوصية بالإصلاحات. سيستخدم كل جزء من هذا النظام تقنيات وأساليب ذكاء اصطناعي مختلفة. لغرض هذه الشرح التفصيلي للشفرة البرمجية، دعنا نركز على الجزء الذي يتم فيه اكتشاف أجزاء السيارة.

باستخدام YOLO-World، يمكنك تحديد أجزاء السيارة المختلفة في صورة في أقل من 5 دقائق. يمكنك توسيع هذا الرمز لتجربة تطبيقات مختلفة باستخدام YOLO-World أيضًا! للبدء، سنحتاج إلى تثبيت حزمة Ultralytics كما هو موضح أدناه.

لمزيد من الإرشادات وأفضل الممارسات المتعلقة بعملية التثبيت، راجع دليل تثبيت Ultralytics الخاص بنا. أثناء تثبيت الحزم المطلوبة لـ YOLOv8، إذا واجهت أي صعوبات، ألقِ نظرة على دليل المشكلات الشائعة للحصول على الحلول والنصائح.

بمجرد الانتهاء من تثبيت الحزمة المطلوبة، يمكننا تنزيل صورة من الإنترنت لتشغيل استدلالاتنا عليها. سنستخدم الصورة أدناه.

بعد ذلك، سنقوم باستيراد الحزمة المطلوبة، وتهيئة نموذجنا، وتعيين الفئات التي نبحث عنها في صورة الإدخال. نحن مهتمون هنا بالفئات التالية: السيارة، والعجلة، وباب السيارة، ومرآة السيارة، ولوحة الترخيص.

سنستخدم بعد ذلك طريقة التنبؤ، مع توفير مسار الصورة مع معلمات الحد الأقصى لعدد الاكتشافات وعتبات التقاطع على الاتحاد (IoU) والثقة (conf) لتشغيل الاستدلال على الصورة. أخيرًا، يتم حفظ الكائنات المكتشفة في ملف باسم "result.jpg".

سيتم حفظ صورة الإخراج التالية في ملفاتك.

إذا كنت تفضل رؤية ما يمكن لـ YOLO-World القيام به دون ترميز، يمكنك الانتقال إلى صفحة YOLO-World التجريبية وتحميل صورة إدخال وإدخال الفئات المخصصة.

اقرأ صفحة المستندات الخاصة بنا على YOLO-World لمعرفة كيفية حفظ النموذج بالفئات المخصصة بحيث يمكن استخدامه مباشرةً لاحقًا دون إدخال فئات مخصصة بشكل متكرر.

هل لاحظت عدم اكتشاف أبواب السيارة؟

إذا ألقيت نظرة على صورة الإخراج مرة أخرى، ستلاحظ أن الفئة المخصصة "باب السيارة" لم يتم اكتشافها. على الرغم من إنجازاته العظيمة، فإن YOLO-World لديه بعض القيود. للتغلب على هذه القيود واستخدام نموذج YOLO-World بفعالية، من المهم استخدام الأنواع الصحيحة من المطالبات النصية.

إليك بعض الأفكار حول هذا الموضوع:

قد لا يحتاج YOLO-World إلى مستويات ثقة عالية للحصول على تنبؤات دقيقة، لذا فإن تقليل عتبات الثقة يمكن أن يحسن معدلات الاكتشاف.
‍
أضف الفئات التي لا تهتم بها. سيساعد ذلك في تحسين اكتشاف الكائن الأساسي عن طريق تقليل النتائج الإيجابية الخاطئة للكائنات الثانوية.
‍
يمكن أن يؤدي اكتشاف الأجسام الكبيرة أولاً قبل التركيز على التفاصيل الصغيرة إلى تحسين دقة الكشف.
‍
اذكر الألوان في صفوفك لاكتشاف الأجسام بناءً على إشارات لونية.
‍
يمكن أن يساعد وصف أحجام الكائنات في المطالبات أيضًا YOLO-World على تحديد كائنات معينة بدقة أكبر.
‍
يمكن أن تؤدي طرق ما بعد المعالجة، مثل تصفية التنبؤات حسب الحجم أو تعديل مستويات الثقة لكل فئة، إلى تحسين نتائج اكتشاف الأجسام.

الحدود لا نهاية لها

بشكل عام، يمكن تحويل نماذج YOLO-World إلى أداة قوية بفضل قدراتها المتقدمة في اكتشاف الأجسام، فهي توفر كفاءة ودقة كبيرة وتساعد على أتمتة المهام المختلفة في مختلف التطبيقات، مثل مثال تحديد أجزاء السيارة الذي ناقشناه عملياً.

لا تتردد في استكشاف مستودع GitHub الخاص بنا لمعرفة المزيد عن مساهماتنا في مجال الرؤية الحاسوبية والذكاء الاصطناعي. إذا كان لديك فضول حول كيفية إعادة تشكيل الذكاء الاصطناعي لقطاعات مثل تكنولوجيا الرعاية الصحية، اطلع على صفحات الحلول الخاصة بنا. يبدو أن الاحتمالات مع ابتكارات مثل YOLO-World لا حصر لها!

التدريب العملي على عالم YOLO-World

نظرة خاطفة على عالم YOLO-World

فوائد اختيار YOLO-World