تعرف على YOLO-World، وهو نموذج مبتكر لاكتشاف الكائنات يمكنه تحديد الكائنات من خلال مطالبات نصية. استكشف كيفية عمل YOLO-World وتطبيقاته، واحصل على تجربة عملية مع مثال سريع للتعليمات البرمجية.

تعرف على YOLO-World، وهو نموذج مبتكر لاكتشاف الكائنات يمكنه تحديد الكائنات من خلال مطالبات نصية. استكشف كيفية عمل YOLO-World وتطبيقاته، واحصل على تجربة عملية مع مثال سريع للتعليمات البرمجية.

غالبًا ما تتضمن مشاريع الرؤية الحاسوبية قضاء الكثير من الوقت في إضافة التعليقات التوضيحية إلى البيانات وتدريب نماذج اكتشاف الكائنات. ولكن، قد يصبح ذلك شيئًا من الماضي قريبًا. أصدر مختبر الذكاء الاصطناعي التابع لشركة Tencent YOLO-World، وهو نموذج لاكتشاف الكائنات في الوقت الفعلي ومفتوح المفردات، في 31 يناير 2024. YOLO-World هو نموذج بدون تدريب مسبق، مما يعني أنه يمكنك تشغيل استدلالات اكتشاف الكائنات على الصور دون الحاجة إلى تدريبه.
تتمتع النماذج الصفرية بالقدرة على تغيير الطريقة التي نتعامل بها مع تطبيقات رؤية الكمبيوتر. في هذه المدونة، سنستكشف كيف يعمل YOLO-World واستخداماته المحتملة ونشارك مثالًا عمليًا للتعليمات البرمجية لمساعدتك على البدء.
يمكنك تمرير صورة ومطالبة نصية تصف الكائنات التي تبحث عنها من خلال نموذج YOLO-World. على سبيل المثال، إذا كنت مهتمًا بالعثور على "شخص يرتدي قميصًا أحمر" داخل صورة، فإن YOLO-World يأخذ هذا الإدخال ويبدأ العمل.
يجمع التصميم المعماري الفريد للنموذج بين ثلاثة عناصر رئيسية:
يقوم كاشف YOLO بمسح صورة الإدخال الخاصة بك لتحديد الكائنات المحتملة. يقوم مشفر النص بتحويل وصفك إلى تنسيق يمكن للنموذج فهمه. ثم يتم دمج هذين التدفقين من المعلومات من خلال RepVL-PAN باستخدام دمج متعدد المستويات عبر الوسائط. يتيح ذلك لـ YOLO-World اكتشاف وتحديد موقع الكائنات الموصوفة في مطالبتك بدقة داخل الصورة.

تتمثل إحدى أكبر مزايا استخدام YOLO-World في أنك لست مضطرًا لتدريب النموذج لفئة معينة. لقد تعلم بالفعل من أزواج الصور والنصوص، لذلك فهو يعرف كيفية العثور على الكائنات بناءً على الأوصاف. يمكنك تجنب ساعات من جمع البيانات، وتوصيف البيانات، والتدريب على وحدات معالجة الرسومات باهظة الثمن، وما إلى ذلك.
فيما يلي بعض المزايا الأخرى لاستخدام YOLO-World:
يمكن استخدام نماذج YOLO-World لمجموعة واسعة من التطبيقات. دعنا نستكشف بعضًا منها.
يتم فحص المنتجات المصنعة على خط التجميع بصريًا بحثًا عن العيوب قبل تعبئتها. غالبًا ما يتم فحص العيوب يدويًا، مما يستغرق وقتًا طويلاً ويمكن أن يؤدي إلى أخطاء. يمكن أن تسبب هذه الأخطاء مشاكل مثل التكاليف المرتفعة والحاجة إلى الإصلاحات أو عمليات الاسترجاع. للمساعدة في ذلك، تم إنشاء كاميرات رؤية آلية وأنظمة ذكاء اصطناعي خاصة لإجراء هذه الفحوصات.
تعتبر نماذج YOLO-World بمثابة تقدم كبير في هذا المجال. يمكنهم العثور على عيوب في المنتجات حتى عندما لم يتم تدريبهم على هذه المشكلة تحديدًا باستخدام قدراتهم في الكشف الصفري. على سبيل المثال، يمكن لمصنع يقوم بتصنيع زجاجات المياه أن يميز بسهولة بين الزجاجة المختومة بشكل صحيح بغطاء الزجاجة مقابل الزجاجة التي تم فيها إغفال الغطاء أو كان معيبًا باستخدام YOLO-World.

تسمح نماذج YOLO-World للروبوتات بالتفاعل مع البيئات غير المألوفة. فبدون التدريب على كائنات معينة قد تكون في غرفة، لا يزال بإمكانها تحديد الكائنات الموجودة. لنفترض أن روبوتًا دخل غرفة لم يسبق له الدخول إليها من قبل. باستخدام نموذج YOLO-World، لا يزال بإمكانه التعرف على الكائنات وتحديدها مثل الكراسي أو الطاولات أو المصابيح، على الرغم من أنه لم يتم تدريبه تحديدًا على هذه العناصر.
بالإضافة إلى اكتشاف الكائنات، يمكن لـ YOLO-World أيضًا تحديد ظروف تلك الكائنات، وذلك بفضل ميزة 'prompt-then-detect'. على سبيل المثال، في الروبوتات الزراعية، يمكن استخدامه لتحديد الفواكه الناضجة مقابل الفواكه غير الناضجة عن طريق برمجة الروبوت لاكتشافها.
تشتمل صناعة السيارات على العديد من الأجزاء المتحركة، ويمكن استخدام YOLO-World لتطبيقات سيارات مختلفة. على سبيل المثال، عندما يتعلق الأمر بصيانة السيارات، فإن قدرة YOLO-World على التعرف على مجموعة متنوعة من الأجسام دون وضع علامات يدوية أو تدريب مسبق مكثف مفيدة للغاية. يمكن استخدام YOLO-World لتحديد قطع غيار السيارات التي تحتاج إلى استبدال. يمكنه حتى أتمتة مهام مثل فحوصات الجودة، واكتشاف العيوب أو القطع المفقودة في السيارات الجديدة.
تطبيق آخر هو الكشف عن الأجسام بصفرية الطلقة (zero-shot object detection) في السيارات ذاتية القيادة. يمكن لقدرات الكشف بصفرية الطلقة في YOLO-World تحسين قدرة السيارة ذاتية القيادة على اكتشاف وتصنيف الأجسام على الطريق في الوقت الفعلي، مثل المشاة وإشارات المرور والمركبات الأخرى. وبذلك، يمكن أن يساعد في اكتشاف العوائق ومنع الحوادث من أجل رحلة أكثر أمانًا.

يُعد تحديد العناصر الموجودة على الأرفف في متاجر البيع بالتجزئة جزءًا مهمًا من تتبع المخزون والحفاظ على المخزونات وأتمتة العمليات. إن قدرة YOLO-World من Ultralytics على التعرف على مجموعة واسعة من العناصر دون الحاجة إلى وضع علامات يدوية أو تدريب مسبق مكثف مفيدة للغاية لإدارة المخزون.
على سبيل المثال، في إدارة المخزون، يمكن لـ YOLO-World اكتشاف وتصنيف العناصر بسرعة على الرف، مثل العلامات التجارية المختلفة لمشروبات الطاقة. يمكن لمتاجر البيع بالتجزئة الاحتفاظ بمخزون دقيق وإدارة مستويات المخزون بكفاءة وتسهيل عمليات سلسلة التوريد.
جميع التطبيقات فريدة وتظهر مدى إمكانية استخدام YOLO-World على نطاق واسع. بعد ذلك، لننتقل إلى الجانب العملي مع YOLO-World ونلقي نظرة على مثال للتعليمات البرمجية.
كما ذكرنا من قبل، يمكن استخدام YOLO-World للكشف عن أجزاء مختلفة من السيارة للصيانة. يتضمن تطبيق الرؤية الحاسوبية الذي يكشف عن أي إصلاحات مطلوبة التقاط صورة للسيارة، وتحديد أجزاء السيارة، وفحص كل جزء من السيارة بحثًا عن التلف، والتوصية بالإصلاحات. سيستخدم كل جزء من هذا النظام تقنيات وأساليب مختلفة للذكاء الاصطناعي. لغرض هذا الشرح التفصيلي للتعليمات البرمجية، دعنا نركز على الجزء الذي يتم فيه الكشف عن أجزاء السيارة.
باستخدام YOLO-World، يمكنك تحديد أجزاء مختلفة من السيارة في صورة في أقل من 5 دقائق. يمكنك توسيع هذا الرمز لتجربة تطبيقات مختلفة باستخدام YOLO-World أيضًا! للبدء، سنحتاج إلى تثبيت حزمة Ultralytics باستخدام pip كما هو موضح أدناه.
لمزيد من الإرشادات وأفضل الممارسات المتعلقة بعملية التثبيت، راجع دليل تثبيت Ultralytics. أثناء تثبيت الحزم المطلوبة لـ YOLOv8، إذا واجهت أي صعوبات، فراجع دليل المشكلات الشائعة للحصول على الحلول والنصائح.
بمجرد تثبيت الحزمة المطلوبة، يمكننا تنزيل صورة من الإنترنت لتشغيل الاستدلالات عليها. سنستخدم الصورة أدناه.

ثم، سنقوم باستيراد الحزمة المطلوبة، وتهيئة النموذج الخاص بنا، وتعيين الفئات التي نبحث عنها في صورة الإدخال الخاصة بنا. هنا، نحن مهتمون بالفئات التالية: سيارة، عجلة، باب سيارة، مرآة سيارة، ولوحة ترخيص.
سنستخدم بعد ذلك طريقة التنبؤ (predict method)، مع توفير مسار الصورة بالإضافة إلى معلمات للعدد الأقصى من الاكتشافات، وعتبات التقاطع على الاتحاد (IoU) والثقة (conf) لتشغيل الاستدلال على الصورة. أخيرًا، يتم حفظ الكائنات المكتشفة في ملف باسم 'result.jpg'.
سيتم حفظ صورة الإخراج التالية في ملفاتك.

إذا كنت تفضل رؤية ما يمكن أن يفعله YOLO-World بدون ترميز، يمكنك الانتقال إلى صفحة العرض التوضيحي لـ YOLO-World، وتحميل صورة إدخال، وإدخال الفئات المخصصة.
اقرأ صفحة المستندات الخاصة بنا حول YOLO-World لمعرفة كيفية حفظ النموذج مع الفئات المخصصة بحيث يمكن استخدامه مباشرة لاحقًا دون إدخال الفئات المخصصة بشكل متكرر.
إذا ألقيت نظرة على الصورة الناتجة مرة أخرى، فستلاحظ أن الفئة المخصصة “bab السيارة” لم يتم اكتشافها. على الرغم من إنجازاته العظيمة، إلا أن YOLO-World لديه بعض القيود. لمكافحة هذه القيود واستخدام نموذج YOLO-World بفعالية، من المهم استخدام الأنواع الصحيحة من المطالبات النصية.
إليك بعض الأفكار حول ذلك:
بشكل عام، يمكن تحويل نماذج YOLO-World إلى أداة قوية بفضل قدراتها المتقدمة في الكشف عن الأجسام. فهي توفر كفاءة ودقة كبيرتين، وتساعد على أتمتة المهام المختلفة عبر تطبيقات متنوعة، مثل مثال تحديد أجزاء السيارة الذي ناقشناه عمليًا.
لا تتردد في استكشاف مستودع GitHub الخاص بنا لمعرفة المزيد حول مساهماتنا في رؤية الكمبيوتر والذكاء الاصطناعي. إذا كنت مهتمًا بكيفية إعادة تشكيل الذكاء الاصطناعي لقطاعات مثل تكنولوجيا الرعاية الصحية، فراجع صفحات الحلول الخاصة بنا. يبدو أن الاحتمالات مع الابتكارات مثل YOLO-World لا حصر لها!