تعرّف على YOLO-World، وهو نموذج مبتكر للكشف عن الكائنات يمكنه تحديد الكائنات من خلال المطالبات النصية. استكشف كيفية عمل YOLO-World وتطبيقاته، واحصل على تدريب عملي من خلال مثال برمجي سريع.

تعرّف على YOLO-World، وهو نموذج مبتكر للكشف عن الكائنات يمكنه تحديد الكائنات من خلال المطالبات النصية. استكشف كيفية عمل YOLO-World وتطبيقاته، واحصل على تدريب عملي من خلال مثال برمجي سريع.
غالباً ما تنطوي مشاريع الرؤية الحاسوبية على قضاء الكثير من الوقت في التعليق على البيانات وتدريب نماذج اكتشاف الأجسام. ولكن، قد يصبح ذلك شيئاً من الماضي قريباً. فقد أصدر مختبر الذكاء الاصطناعي في تينسنت نموذج YOLO-World، وهو نموذج لاكتشاف الأجسام في الوقت الحقيقي، وهو نموذج مفتوح المفردات في الوقت الحقيقي، في 31 يناير 2024. YOLO-World هو نموذج بدون لقطة، مما يعني أنه يمكنك تشغيل استنتاجات اكتشاف الأجسام على الصور دون الحاجة إلى تدريبه.
نماذج اللقطة الصفرية لديها القدرة على تغيير الطريقة التي نتعامل بها مع تطبيقات الرؤية الحاسوبية. في هذه المدونة، سنستكشف في هذه المدونة كيفية عمل YOLO-World واستخداماته المحتملة وسنشارك مثالاً عمليًا على كود عملي لتبدأ به.
يمكنك تمرير صورة ونص موجه يصف الأشياء التي تبحث عنها من خلال نموذج YOLO-World. على سبيل المثال، إذا كنت مهتمًا بالعثور على "شخص يرتدي قميصًا أحمر" داخل صورة، يأخذ YOLO-World هذه المدخلات ويبدأ العمل.
تجمع البنية الفريدة للنموذج بين ثلاثة عناصر رئيسية:
يقوم كاشف YOLO بمسح صورة الإدخال الخاصة بك لتحديد الكائنات المحتملة. يقوم مشفر النص بتحويل وصفك إلى تنسيق يمكن للنموذج فهمه. ثم يتم بعد ذلك دمج هذين التدفقين من المعلومات من خلال RepVL-PAN باستخدام دمج متعدد المستويات عبر الوسائط. يتيح لـ YOLO-World اكتشاف وتحديد موقع الكائنات الموصوفة في مطالبتك بدقة داخل الصورة.
تتمثل إحدى أكبر مزايا استخدام YOLO-World في أنك لست مضطرًا لتدريب النموذج على فئة معينة. فقد تعلم بالفعل من أزواج من الصور والنصوص، لذا فهو يعرف كيفية العثور على الأشياء بناءً على الأوصاف. يمكنك تجنب ساعات من جمع البيانات، والتعليق على البيانات، والتدريب على وحدات معالجة الرسومات باهظة الثمن، وما إلى ذلك.
إليك بعض الفوائد الأخرى لاستخدام YOLO-World:
يمكن استخدام نماذج YOLO-World في مجموعة متنوعة من التطبيقات. دعونا نستكشف بعضاً منها.
يتم فحص المنتجات المصنعة على خط التجميع بصريًا بحثًا عن العيوب قبل تعبئتها. وغالباً ما يتم الكشف عن العيوب يدوياً، وهو ما يستغرق وقتاً طويلاً ويمكن أن يؤدي إلى حدوث أخطاء. يمكن أن تتسبب هذه الأخطاء في مشاكل مثل ارتفاع التكاليف والحاجة إلى إصلاحات أو سحب المنتجات. للمساعدة في ذلك، تم إنشاء كاميرات رؤية آلية خاصة وأنظمة ذكاء اصطناعي لإجراء هذه الفحوصات.
تعتبر نماذج YOLO-World تقدماً كبيراً في هذا المجال. حيث يمكنهم العثور على العيوب في المنتجات حتى عندما لا يكونون قد تدربوا على تلك المشكلة المحددة باستخدام قدراتهم في اللقطة الصفرية. على سبيل المثال، يمكن لمصنع يقوم بتصنيع زجاجات المياه أن يميز بسهولة بين زجاجة محكمة الغلق بغطاء الزجاجة مقابل زجاجة لم يتم غلق الغطاء فيها أو بها عيب باستخدام YOLO-World.
تسمح نماذج YOLO-World للروبوتات بالتفاعل مع البيئات غير المألوفة. دون أن يتم تدريبها على أجسام محددة قد تكون موجودة في الغرفة، لا يزال بإمكانها تحديد الأجسام الموجودة. لذا، لنفترض أن الروبوت يدخل غرفة لم يدخلها من قبل. باستخدام نموذج YOLO-Wamorld، لا يزال بإمكانه التعرف على الأشياء مثل الكراسي أو الطاولات أو المصابيح وتحديدها، على الرغم من أنه لم يتم تدريبه على تلك العناصر تحديداً.
وبالإضافة إلى اكتشاف الأجسام، يمكن لـ YOLO-World أيضاً تحديد ظروف تلك الأجسام، وذلك بفضل ميزة "المطالبة ثم الاكتشاف". على سبيل المثال، في مجال الروبوتات الزراعية، يمكن استخدامه لتحديد الثمار الناضجة مقابل الثمار غير الناضجة من خلال برمجة الروبوت للكشف عنها.
تنطوي صناعة السيارات على العديد من الأجزاء المتحركة، ويمكن استخدام YOLO-World في تطبيقات السيارات المختلفة. على سبيل المثال، عندما يتعلق الأمر بصيانة السيارات، فإن قدرة YOLO-World على التعرف على مجموعة واسعة من الأشياء دون الحاجة إلى وضع علامات يدوية أو تدريب مسبق مكثف مفيد للغاية. يمكن استخدام YOLO-World لتحديد أجزاء السيارة التي يجب استبدالها. ويمكنه أيضاً أتمتة مهام مثل فحص الجودة واكتشاف العيوب أو القطع المفقودة في السيارات الجديدة.
تطبيق آخر هو الكشف عن الأجسام بدون لقطة في السيارات ذاتية القيادة. يمكن لإمكانيات الكشف عن اللقطة الصفرية في YOLO-World تحسين قدرة السيارة ذاتية القيادة على اكتشاف الأجسام الموجودة على الطريق وتصنيفها، مثل المشاة وإشارات المرور والمركبات الأخرى في الوقت الفعلي. وبذلك، يمكنها المساعدة في اكتشاف العوائق ومنع الحوادث من أجل رحلة أكثر أماناً.
يُعد التعرف على الأشياء الموجودة على الرفوف في متاجر البيع بالتجزئة جزءًا مهمًا من تتبع المخزون والحفاظ على المخزون وأتمتة العمليات. تُعد قدرة برنامج Ultralytics YOLO-World على التعرف على مجموعة واسعة من الأشياء دون وضع علامات يدوية أو تدريب مسبق مكثف مفيد للغاية لإدارة المخزون.
على سبيل المثال، في مجال إدارة المخزون، يمكن لـ YOLO-World تحديد العناصر الموجودة على الرف وتصنيفها بسرعة، مثل العلامات التجارية المختلفة لمشروبات الطاقة. يمكن لمتاجر البيع بالتجزئة الاحتفاظ بمخزون دقيق، وإدارة مستويات المخزون بكفاءة، وتسهيل عمليات سلسلة التوريد.
جميع التطبيقات فريدة من نوعها وتوضح مدى إمكانية استخدام YOLO-World على نطاق واسع. بعد ذلك، دعنا نبدأ بالتدريب العملي على YOLO-World ونلقي نظرة على مثال ترميز.
كما ذكرنا من قبل، يمكن استخدام برنامج YOLO-World للكشف عن الأجزاء المختلفة للسيارة من أجل صيانتها. سيتضمن تطبيق الرؤية الحاسوبية الذي يكتشف أي إصلاحات مطلوبة التقاط صورة للسيارة، وتحديد أجزاء السيارة، وفحص كل جزء من أجزاء السيارة بحثاً عن أي تلف، والتوصية بالإصلاحات. سيستخدم كل جزء من هذا النظام تقنيات وأساليب ذكاء اصطناعي مختلفة. لغرض هذه الشرح التفصيلي للشفرة البرمجية، دعنا نركز على الجزء الذي يتم فيه اكتشاف أجزاء السيارة.
باستخدام YOLO-World، يمكنك تحديد أجزاء السيارة المختلفة في صورة في أقل من 5 دقائق. يمكنك توسيع هذا الرمز لتجربة تطبيقات مختلفة باستخدام YOLO-World أيضًا! للبدء، سنحتاج إلى تثبيت حزمة Ultralytics كما هو موضح أدناه.
لمزيد من الإرشادات وأفضل الممارسات المتعلقة بعملية التثبيت، راجع دليل تثبيت Ultralytics الخاص بنا. أثناء تثبيت الحزم المطلوبة لـ YOLOv8، إذا واجهت أي صعوبات، ألقِ نظرة على دليل المشكلات الشائعة للحصول على الحلول والنصائح.
بمجرد الانتهاء من تثبيت الحزمة المطلوبة، يمكننا تنزيل صورة من الإنترنت لتشغيل استدلالاتنا عليها. سنستخدم الصورة أدناه.
بعد ذلك، سنقوم باستيراد الحزمة المطلوبة، وتهيئة نموذجنا، وتعيين الفئات التي نبحث عنها في صورة الإدخال. نحن مهتمون هنا بالفئات التالية: السيارة، والعجلة، وباب السيارة، ومرآة السيارة، ولوحة الترخيص.
سنستخدم بعد ذلك طريقة التنبؤ، مع توفير مسار الصورة مع معلمات الحد الأقصى لعدد الاكتشافات وعتبات التقاطع على الاتحاد (IoU) والثقة (conf) لتشغيل الاستدلال على الصورة. أخيرًا، يتم حفظ الكائنات المكتشفة في ملف باسم "result.jpg".
سيتم حفظ صورة الإخراج التالية في ملفاتك.
إذا كنت تفضل رؤية ما يمكن لـ YOLO-World القيام به دون ترميز، يمكنك الانتقال إلى صفحة YOLO-World التجريبية وتحميل صورة إدخال وإدخال الفئات المخصصة.
اقرأ صفحة المستندات الخاصة بنا على YOLO-World لمعرفة كيفية حفظ النموذج بالفئات المخصصة بحيث يمكن استخدامه مباشرةً لاحقًا دون إدخال فئات مخصصة بشكل متكرر.
إذا ألقيت نظرة على صورة الإخراج مرة أخرى، ستلاحظ أن الفئة المخصصة "باب السيارة" لم يتم اكتشافها. على الرغم من إنجازاته العظيمة، فإن YOLO-World لديه بعض القيود. للتغلب على هذه القيود واستخدام نموذج YOLO-World بفعالية، من المهم استخدام الأنواع الصحيحة من المطالبات النصية.
إليك بعض الأفكار حول هذا الموضوع:
بشكل عام، يمكن تحويل نماذج YOLO-World إلى أداة قوية بفضل قدراتها المتقدمة في اكتشاف الأجسام، فهي توفر كفاءة ودقة كبيرة وتساعد على أتمتة المهام المختلفة في مختلف التطبيقات، مثل مثال تحديد أجزاء السيارة الذي ناقشناه عملياً.
لا تتردد في استكشاف مستودع GitHub الخاص بنا لمعرفة المزيد عن مساهماتنا في مجال الرؤية الحاسوبية والذكاء الاصطناعي. إذا كان لديك فضول حول كيفية إعادة تشكيل الذكاء الاصطناعي لقطاعات مثل تكنولوجيا الرعاية الصحية، اطلع على صفحات الحلول الخاصة بنا. يبدو أن الاحتمالات مع ابتكارات مثل YOLO-World لا حصر لها!