تشغيل الرؤية الحاسوبية مفتوحة المصدر باستخدام محولات HuggingFace

نوفولا لادي

5 دقائق للقراءة

14 فبراير 2024

انغمس في الرؤية الحاسوبية مفتوحة المصدر مع HuggingFace! تعرّف على التعلّم التحويلي والتحويلات واستكشف أكثر من 8000 نموذج. انضم إلى ميرف نويان للتعرف على الرؤى والعروض التوضيحية العملية، وتمكين المطورين من الابتكار في استكشاف الذكاء الاصطناعي.

بينما نواصل استكشاف أبرز ما جاء في فعالية YOLO VISION 2023 (YV23)، دعونا نلتقي ميرف نويان، مهندسة دعم المطورين في HuggingFace، المنصة الرائدة في مجال البرمجة اللغوية العصبية مع نماذج مدربة مسبقًا لتطوير تطبيقات اللغة بكفاءة. شاركت ميرف في حديثها بعض الرؤى المذهلة في عالم الرؤية الحاسوبية مفتوحة المصدر. 

انضم إلينا بينما نأخذك في رحلة عبر عالم التعلم التحوّلي الرائع والتحويلات ومنظومة الرؤية الحاسوبية مفتوحة المصدر.

كشف النقاب عن نقل التعلّم: ملخص سريع

استهلت ميرف الأمور بكتاب تمهيدي سريع عن نقل التعلم، العصا السحرية التي تسمح لنا بنقل المعرفة من شبكة عصبية إلى أخرى. تخيل تدريب نموذج على السمات العامة في الطبقات المبكرة، مثل الحواف والزوايا، ثم ضبطه لمهام محددة. هذا هو جوهر التعلّم التحوّلي، مما يقلل من تبعيات البيانات ويعزز الدقة.

سلّطت ميرف الضوء على العمود الفقري التلافيفي الكلاسيكي مثل ResNet وInception، ممهدةً بذلك الطريق لرحلة التحوّل المقبلة.

أدخل المتحولون: كشف النقاب عن لغز

ما الذي يجعل المحولات مميزة؟ شبّهها ميرف بالأحجية، موضحًا كيف تختلف عن النماذج التقليدية القائمة على التلافيف. تكمن الخلطة السرية في قدرتها على إجراء التعلم الذاتي الخاضع للإشراف، والتقاط الميزات دون الحاجة إلى بيانات مصنفة. كانت نماذج Vision Transformer، وData Efficient Transformer، وCLIP، وSWIM CLIP من بين مجموعة النماذج القائمة على المحولات التي قدمتها. 

وضع بعض القواسم المشتركة مع Ultralytics الذي يوفر دعمًا لنموذج محول مصمم لاكتشاف الكائنات. يتميز هذا النموذج بتشفير هجين فعال، واختيار استعلام مدرك لـ IOU، وسرعة استدلال قابلة للتعديل. والجدير بالذكر، أنه يلتزم بالنمط المألوف لنماذج Ultralytics YOLOv8 الأخرى، حيث يقدم خيارات للتنبؤ والتدريب والتحقق من الصحة والتصدير.

متجرك الشامل

ثم غاصت ميرف في كنز عروض HuggingFace، مع أكثر من 8000 نموذج لمهام الرؤية الحاسوبية الكلاسيكية و10 آلاف نموذج للتطبيقات متعددة الوسائط. يضم مركز HuggingFace Hub أكثر من 3000 مجموعة بيانات ضخمة، مما يجعله ملعباً للمطورين والمتحمسين على حد سواء. أكد ميرف على سلاسة التجربة، بفضل واجهة برمجة التطبيقات المتناسقة الخاصة بـ HuggingFace، والتي تقدم نماذج جاهزة للاستخدام لمختلف حالات الاستخدام.

سحر اليدين مع عناق الوجه

وانتقل الحديث إلى العروض التوضيحية العملية، حيث أظهر كيف يمكن للمرء العمل مع النماذج دون عناء. من إنشاء النماذج والمعالجات إلى الضبط الدقيق باستخدام واجهة برمجة تطبيقات المدرب، أوضحت ميرف أن مكتبة HuggingFace Transformers هي أفضل صديق للمطورين. حتى أنها قدمت واجهة برمجة التطبيقات Pipeline API، وهي المفضلة شخصيًا، مما يبسط سير العمل للمستخدمين.

الشكل 1. ميرفي نويان تقدم عرضاً في YV23 في حرم Google للشركات الناشئة في مدريد.

لمحة عن التطبيقات

اختتمت ميرف الحديث بلمحة عن بعض التطبيقات الرائعة، بما في ذلك نموذج Plot للإجابة عن الأسئلة المرئية، و Blip للتعليق على الصور، ونموذج Segment Anything القوي لتجزئة الصور. تم تسليط الضوء على واجهة برمجة التطبيقات Pipeline API الخاصة بمنظومة HuggingFace Ecosystem، مما يجعل استخدام النماذج أمرًا سهلاً دون التعمق في الجوانب التقنية.

كان العرض الرائع الذي قدمته ميرف هو عرض ميرف لابتكار خدع بصرية مع لعبة Elysian Diffusion، وهي تجربة آسرة تضيف لمسة ممتعة إلى عالم الذكاء الاصطناعي.

باختصار!

في الختام، تركنا حديث ميرف مصدر إلهام لنا وحماسًا لاستكشاف الإمكانيات اللانهائية للرؤية الحاسوبية مفتوحة المصدر. لقد جعلت شركة HuggingFace الذكاء الاصطناعي متاحًا وممتعًا ومثيرًا حقًا، ومكّنت المطورين من إطلاق العنان لإبداعاتهم. نخب مستقبل المجتمع مفتوح المصدر وما يحمله من ابتكارات مذهلة! 

شاهد الحديث كاملاً هنا

دعونا نبني المستقبل
للذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل التعلم الآلي

ابدأ مجاناً
تم نسخ الرابط إلى الحافظة