Yolo فيجن شنتشن
شنتشن
انضم الآن

تشغيل الرؤية الحاسوبية مفتوحة المصدر باستخدام محولات HuggingFace

نوفولا لادي

5 دقائق قراءة

14 فبراير 2024

انغمس في الرؤية الحاسوبية مفتوحة المصدر مع HuggingFace! تعرّف على التعلّم التحويلي والتحويلات واستكشف أكثر من 8000 نموذج. انضم إلى ميرف نويان للتعرف على الرؤى والعروض التوضيحية العملية، وتمكين المطورين من الابتكار في استكشاف الذكاء الاصطناعي.

بينما نستمر في استكشاف أبرز ما جاء في فعالية YOLO VISION 2023 (YV23)، دعونا نلتقي ميرف نويان، مهندس دعم المطورين في HuggingFaceوهي منصة رائدة في مجال البرمجة اللغوية العصبية مع نماذج مُدرَّبة مسبقًا لتطوير تطبيقات اللغة بكفاءة. شاركت ميرف في حديثها بعض الرؤى المذهلة في عالم الرؤية الحاسوبية مفتوحة المصدر. 

انضموا إلينا في رحلة عبر عالم التعلم بالنقل الرائع، والمحولات، والنظام البيئي مفتوح المصدر لرؤية الحاسوب.

الكشف عن التعلم بالنقل: ملخص سريع

بدأت ميرفي الأمور بتمهيد سريع حول التعلّم بالنقل (transfer learning)، العصا السحرية التي تسمح لنا بنقل المعرفة من شبكة عصبونية إلى أخرى. تخيل تدريب نموذج على الميزات الشاملة في الطبقات المبكرة، مثل الحواف والزوايا، ثم ضبطه بدقة لمهام محددة. هذا هو جوهر التعلّم بالنقل، مما يقلل من الاعتماد على البيانات ويعزز الدقة.

سلّطت ميرفي الضوء على الهياكل الأساسية الالتفافية الكلاسيكية مثل ResNet وInception، ممهدة الطريق للرحلة التحويلية المقبلة.

أدخل المحولات: كشف النقاب عن لغز

ما الذي يجعل Transformers مميزة؟ شبهتها ميرفي باللغز، موضحة كيف تختلف عن النماذج التقليدية القائمة على الالتفاف. يكمن السر في قدرتها على إجراء التعلم بالإشراف الذاتي، والتقاط الميزات دون الحاجة إلى بيانات مصنفة. كان Vision Transformer و Data Efficient Transformer و CLIP و SWIM CLIP من بين النجوم البارزة لنماذج المحولات التي قدمتها. 

وضع بعض القواسم المشتركة مع Ultralytics الذي يوفر دعمًا لنموذج محول مصمم لاكتشاف الكائنات. يتميز هذا النموذج بمُشفِّر هجين فعال، واختيار استعلام مدرك لـ IOU، وسرعة استدلال قابلة للتعديل. والجدير بالملاحظة أنه يلتزم بالنمط المألوف لنماذج Ultralytics YOLOv8 حيث يقدم خيارات للتنبؤ والتدريب والتحقق من الصحة والتصدير.

محطتك الشاملة

ثم غاصت ميرف في كنز عروض HuggingFace مع أكثر من 8000 نموذج لمهام الرؤية الحاسوبية الكلاسيكية و10 آلاف نموذج للتطبيقات متعددة الوسائط. يضم مركز HuggingFace Hub أكثر من 3000 مجموعة بيانات ضخمة، مما يجعله ملعباً للمطورين والمتحمسين على حد سواء. وأكد ميرف على سلاسة التجربة، وذلك بفضل واجهة برمجة التطبيقات المتناسقة الخاصة بـ HuggingFace والتي تقدم نماذج جاهزة للاستخدام لمختلف حالات الاستخدام.

سحر اليدين مع HuggingFace

وانتقل الحديث إلى العروض التوضيحية العملية، حيث أظهر كيف يمكن للمرء العمل مع النماذج دون عناء. من إنشاء النماذج والمعالجات إلى الضبط الدقيق باستخدام واجهة برمجة تطبيقات المدرب، أوضحت ميرف أن مكتبة HuggingFace Transformers هي أفضل صديق للمطورين. حتى أنها قدمت واجهة برمجة التطبيقات Pipeline API، وهي المفضلة شخصيًا، مما يبسط سير العمل للمستخدمين.

الشكل 1. ميرف نويان تقدم عرضاً في YV23 في حرم Google للشركات الناشئة في مدريد.

لمحة عن التطبيقات

اختتمت ميرف الحديث بلمحة عن بعض التطبيقات الرائعة، بما في ذلك نموذج Plot للإجابة عن الأسئلة المرئية، و Blip للتعليق على الصور، ونموذج Segment Anything القوي لتجزئة الصور. تم تسليط الضوء على واجهة برمجة التطبيقات Pipeline API الخاصة بمنظومة HuggingFace Ecosystem، مما يجعل استخدام النماذج أمرًا سهلاً دون التعمق في الجوانب التقنية.

كانت اللمسة الأخيرة هي عرض ميرفي لإنشاء أوهام بصرية باستخدام Elysian Diffusion، وهي تجربة آسرة تضيف لمسة ممتعة إلى عالم الذكاء الاصطناعي.

باختصار شديد!

في الختام، تركنا حديث ميرف مصدر إلهام لنا وحماسًا لاستكشاف الإمكانيات اللانهائية للرؤية الحاسوبية مفتوحة المصدر. لقد جعلت HuggingFace الذكاء الاصطناعي متاحًا وممتعًا ومثيرًا حقًا، ومكّنت المطورين من إطلاق العنان لإبداعاتهم. نخب مستقبل المجتمع مفتوح المصدر وما يحمله من ابتكارات مذهلة! 

شاهد المحاضرة كاملة هنا

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا