يولو فيجن شنتشن
شنتشن
انضم الآن

تشغيل مشاريع الرؤية الحاسوبية باستخدام أدوات Hugging Face مفتوحة المصدر

أبيرامي فينا

5 دقائق قراءة

11 فبراير 2025

انضم إلينا بينما نعيد النظر في كلمة رئيسية من YOLO Vision 2024 تركز على استكشاف كيف تعمل أدوات Hugging Face مفتوحة المصدر على تطوير تطوير الذكاء الاصطناعي.

يعد اختيار الخوارزميات الصحيحة جزءًا واحدًا فقط من بناء حلول رؤية حاسوبية مؤثرة. غالبًا ما يعمل مهندسو الذكاء الاصطناعي مع مجموعات بيانات كبيرة، ويقومون بضبط النماذج لمهام محددة، وتحسين أنظمة الذكاء الاصطناعي لتحقيق أداء واقعي. مع اعتماد تطبيقات الذكاء الاصطناعي بسرعة أكبر، تتزايد أيضًا الحاجة إلى أدوات تبسط هذه العمليات.

في YOLO Vision 2024 (YV24)، الفعالية الهجينة السنوية التي تدعمها Ultralytics، اجتمع خبراء الذكاء الاصطناعي والمتحمسون للتكنولوجيا لاستكشاف أحدث الابتكارات في الرؤية الحاسوبية. أثارت الفعالية مناقشات حول مواضيع مختلفة، مثل طرق تسريع تطوير تطبيقات الذكاء الاصطناعي.

كان أحد أبرز الأحداث كلمة رئيسية حول Hugging Face، وهي منصة ذكاء اصطناعي مفتوحة المصدر تعمل على تبسيط تدريب النماذج وتحسينها ونشرها. شارك بافل لاكوبوفسكي، مهندس التعلم الآلي في Hugging Face، كيف تعمل أدواتها على تحسين سير العمل لمهام الرؤية الحاسوبية مثل اكتشاف الكائنات في الصور وتصنيف الصور إلى مجموعات مختلفة وتقديم التنبؤات دون تدريب مسبق على أمثلة محددة (التعلم الصفري).

يستضيف Hugging Face Hub ويوفر الوصول إلى العديد من نماذج الذكاء الاصطناعي و رؤية الكمبيوتر مثل Ultralytics YOLO11. في هذه المقالة، سنلخص النقاط الرئيسية من حديث بافيل ونرى كيف يمكن للمطورين استخدام أدوات Hugging Face مفتوحة المصدر لبناء ونشر نماذج الذكاء الاصطناعي بسرعة.

الشكل 1. بافيل على خشبة المسرح في YV24.

يدعم Hugging Face Hub تطوير الذكاء الاصطناعي بشكل أسرع

بدأ بافيل حديثه بتقديم Hugging Face كمنصة ذكاء اصطناعي مفتوحة المصدر تقدم نماذج مدربة مسبقًا لمجموعة متنوعة من التطبيقات. تم تصميم هذه النماذج لفروع مختلفة من الذكاء الاصطناعي، بما في ذلك معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يتيح للأنظمة معالجة أنواع مختلفة من البيانات، مثل النصوص والصور والصوت.

ذكر بافيل أن Hugging Face Hub يستضيف الآن أكثر من مليون نموذج، ويمكن للمطورين بسهولة العثور على نماذج مناسبة لمشاريعهم المحددة. تهدف Hugging Face إلى تبسيط تطوير الذكاء الاصطناعي من خلال تقديم أدوات لتدريب النماذج والضبط الدقيق والنشر. عندما يتمكن المطورون من تجربة نماذج مختلفة، فإن ذلك يبسط عملية دمج الذكاء الاصطناعي في التطبيقات الواقعية.

في حين أن Hugging Face كانت معروفة في البداية بمعالجة اللغة الطبيعية، إلا أنها توسعت منذ ذلك الحين لتشمل الرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يمكّن المطورين من معالجة نطاق أوسع من مهام الذكاء الاصطناعي. لديها أيضًا مجتمع قوي حيث يمكن للمطورين التعاون وتبادل الأفكار والحصول على الدعم من خلال المنتديات و Discord و GitHub.

استكشاف نماذج Hugging Face لتطبيقات رؤية الكمبيوتر

بالخوض في مزيد من التفاصيل، أوضح بافيل كيف أن أدوات Hugging Face تجعل من السهل بناء تطبيقات رؤية الكمبيوتر. يمكن للمطورين استخدامها في مهام مثل تصنيف الصور واكتشاف الأجسام وتطبيقات الرؤية اللغوية.

وأشار أيضًا إلى أن العديد من مهام رؤية الحاسوب هذه يمكن التعامل معها باستخدام نماذج مُدرَّبة مسبقًا ومتاحة على Hugging Face Hub، مما يوفر الوقت عن طريق تقليل الحاجة إلى التدريب من البداية. في الواقع، تقدم Hugging Face أكثر من 13000 نموذج مُدرَّب مسبقًا لمهام تصنيف الصور، بما في ذلك نماذج لتصنيف الطعام، وتصنيف الحيوانات الأليفة، واكتشاف المشاعر.

مع التأكيد على إمكانية الوصول إلى هذه النماذج، قال: "ربما لا تحتاج حتى إلى تدريب نموذج لمشروعك - قد تجد نموذجًا على Hub تم تدريبه بالفعل بواسطة شخص ما من المجتمع." 

نماذج Hugging Face لاكتشاف الكائنات 

في مثال آخر، أوضح بافيل كيف يمكن لـ Hugging Face المساعدة في اكتشاف الأجسام، وهي وظيفة أساسية في رؤية الكمبيوتر تُستخدم لتحديد وتحديد مواقع الأجسام داخل الصور. حتى مع وجود بيانات مصنفة محدودة، يمكن للنماذج المدربة مسبقًا المتوفرة على Hugging Face Hub أن تجعل اكتشاف الأجسام أكثر كفاءة. 

كما قدم لمحة سريعة عن العديد من النماذج المصممة لهذه المهمة والتي يمكنك العثور عليها على Hugging Face:

  • نماذج الكشف عن الأجسام في الوقت الفعلي: بالنسبة للبيئات الديناميكية حيث السرعة أمر بالغ الأهمية، تقدم نماذج مثل Detection Transformer (DETR) إمكانات الكشف عن الأجسام في الوقت الفعلي. يتم تدريب DETR على مجموعة بيانات COCO وهو مصمم لمعالجة الميزات متعددة المقاييس بكفاءة، مما يجعله مناسبًا للتطبيقات الحساسة للوقت.
  • نماذج الرؤية واللغة (Vision-language models): تجمع هذه النماذج بين معالجة الصور والنصوص، مما يجعل من الممكن لأنظمة الذكاء الاصطناعي مطابقة الصور مع الأوصاف أو التعرف على الكائنات خارج بيانات التدريب الخاصة بها. تتضمن الأمثلة CLIP و SigLIP، مما يحسن البحث عن الصور عن طريق ربط النص بالصور المرئية وتمكين حلول الذكاء الاصطناعي من تحديد كائنات جديدة من خلال فهم سياقها.
  • نماذج الكشف عن الكائنات بدون تدريب (Zero-shot object detection models): يمكنها تحديد الكائنات التي لم ترها من قبل من خلال فهم العلاقة بين الصور والنصوص. تشمل الأمثلة OwlVit و GroundingDINO و OmDet، والتي تستخدم التعلم بدون تدريب (zero-shot learning) لاكتشاف كائنات جديدة دون الحاجة إلى بيانات تدريب مصنفة.

كيفية استخدام نماذج Hugging Face

ثم حول بافيل التركيز إلى التدريب العملي على نماذج Hugging Face، موضحًا ثلاث طرق يمكن للمطورين من خلالها الاستفادة منها: استكشاف النماذج واختبارها بسرعة وتخصيصها بشكل أكبر.

أوضح كيف يمكن للمطورين تصفح النماذج مباشرة على Hugging Face Hub دون كتابة أي تعليمات برمجية، مما يسهل اختبار النماذج على الفور من خلال واجهة تفاعلية. وأضاف بافل: "يمكنك تجربتها دون كتابة سطر واحد من التعليمات البرمجية أو تنزيل النموذج على جهاز الكمبيوتر الخاص بك." نظرًا لأن بعض النماذج كبيرة، فإن تشغيلها على Hub يساعد على تجنب قيود التخزين والمعالجة.

الشكل 2. كيفية استخدام نماذج Hugging Face.

أيضًا، تتيح واجهة برمجة تطبيقات Hugging Face Inference للمطورين تشغيل نماذج الذكاء الاصطناعي بمكالمات API بسيطة. إنه أمر رائع للاختبار السريع ومشاريع إثبات المفهوم والنماذج الأولية السريعة دون الحاجة إلى إعداد معقد.

بالنسبة لحالات الاستخدام الأكثر تقدمًا، يمكن للمطورين استخدام إطار عمل Hugging Face Transformers، وهي أداة مفتوحة المصدر توفر نماذج مدربة مسبقًا لمهام النصوص والرؤية والصوت مع دعم كل من PyTorch و TensorFlow. أوضح بافيل أنه باستخدام سطرين فقط من التعليمات البرمجية، يمكن للمطورين استرداد نموذج من Hugging Face Hub وربطه بأداة معالجة مسبقة، مثل معالج الصور، لتحليل بيانات الصور لتطبيقات Vision AI.

تحسين سير عمل الذكاء الاصطناعي باستخدام Hugging Face

بعد ذلك، أوضح بافل كيف يمكن لـ Hugging Face تبسيط سير عمل الذكاء الاصطناعي. أحد الموضوعات الرئيسية التي غطاها هو تحسين آلية الانتباه في Transformers، وهي ميزة أساسية في نماذج التعلم العميق التي تساعدها على التركيز على الأجزاء الأكثر صلة من بيانات الإدخال. هذا يحسن دقة المهام التي تنطوي على معالجة اللغة والرؤية الحاسوبية. ومع ذلك، يمكن أن يكون استهلاكها للموارد كثيفًا.

يمكن أن يؤدي تحسين آلية الانتباه إلى تقليل استخدام الذاكرة بشكل كبير مع تحسين السرعة. وأشار بافيل إلى أنه "على سبيل المثال، من خلال التحول إلى تطبيق انتباه أكثر كفاءة، يمكنك رؤية أداء أسرع بما يصل إلى 1.8 مرة."

توفر Hugging Face دعمًا مدمجًا لتطبيقات الانتباه الأكثر كفاءة داخل إطار عمل Transformers. يمكن للمطورين تمكين هذه التحسينات ببساطة عن طريق تحديد تطبيق انتباه بديل عند تحميل نموذج.

Optimum و Torch Compile

كما تحدث عن التكميم (quantization)، وهي تقنية تجعل نماذج الذكاء الاصطناعي أصغر حجمًا عن طريق تقليل دقة الأرقام التي تستخدمها دون التأثير على الأداء بشكل كبير. يساعد هذا النماذج على استخدام ذاكرة أقل وتشغيل أسرع، مما يجعلها أكثر ملاءمة للأجهزة ذات القدرة المحدودة على المعالجة، مثل الهواتف الذكية والأنظمة المدمجة.

لزيادة تحسين الكفاءة، قدم Pavel مكتبة Hugging Face Optimum، وهي مجموعة من الأدوات المصممة لتحسين ونشر النماذج. باستخدام بضعة أسطر فقط من التعليمات البرمجية، يمكن للمطورين تطبيق تقنيات التكميم وتحويل النماذج إلى تنسيقات فعالة مثل ONNX (تبادل الشبكة العصبية المفتوحة)، مما يسمح لها بالعمل بسلاسة على أنواع مختلفة من الأجهزة، بما في ذلك الخوادم السحابية والأجهزة الطرفية.

الشكل 3. تحدث بافل عن مكتبة Optimum وميزاتها.

أخيرًا، ذكر Pavel فوائد Torch Compile، وهي ميزة في PyTorch تعمل على تحسين كيفية معالجة نماذج الذكاء الاصطناعي للبيانات، مما يجعلها تعمل بشكل أسرع وأكثر كفاءة. تدمج Hugging Face ميزة Torch Compile داخل مكتبات Transformers و Optimum الخاصة بها، مما يتيح للمطورين الاستفادة من تحسينات الأداء هذه بأقل قدر من تغييرات التعليمات البرمجية. 

من خلال تحسين هيكل حسابات النموذج، يمكن لـ Torch Compile تسريع أوقات الاستدلال وزيادة معدلات الإطارات من 29 إلى 150 إطارًا في الثانية دون المساس بالدقة أو الجودة.

نشر النماذج باستخدام أدوات Hugging Face

بالانتقال إلى الأمام، تطرق بافل بإيجاز إلى كيف يمكن للمطورين توسيع ونشر نماذج Vision AI باستخدام أدوات Hugging Face بعد تحديد النموذج المناسب واختيار أفضل نهج للتطوير.

على سبيل المثال، يمكن للمطورين نشر تطبيقات الذكاء الاصطناعي التفاعلية باستخدام Gradio و Streamlit. يتيح Gradio للمطورين إنشاء واجهات قائمة على الويب لنماذج تعلم الآلة، بينما يساعد Streamlit في بناء تطبيقات بيانات تفاعلية باستخدام نصوص Python بسيطة. 

أشار بافيل أيضًا إلى أنه "لا تحتاج إلى البدء في كتابة كل شيء من البداية"، في إشارة إلى الأدلة ودفاتر التدريب والبرامج النصية النموذجية التي توفرها Hugging Face. تساعد هذه الموارد المطورين على البدء بسرعة دون الحاجة إلى بناء كل شيء من الألف إلى الياء.

الشكل 4. بافيل يناقش قدرات Hugging Face في YV24.

فوائد Hugging Face Hub 

في ختام كلمته الرئيسية، لخص Pavel مزايا استخدام Hugging Face Hub. وأكد كيف أنه يبسط إدارة النماذج والتعاون. كما لفت الانتباه إلى توافر الأدلة ودفاتر الملاحظات والبرامج التعليمية، والتي يمكن أن تساعد المبتدئين والخبراء على فهم نماذج الذكاء الاصطناعي وتنفيذها.

"هناك الكثير من المساحات الرائعة بالفعل على Hub. يمكنك العثور على مساحات مماثلة، واستنساخ التعليمات البرمجية المشتركة، وتعديل بضعة أسطر، واستبدال النموذج بنموذجك الخاص، ودفعه مرة أخرى،" أوضح، مشجعًا المطورين على الاستفادة من مرونة النظام الأساسي.

النقاط الرئيسية 

خلال حديثه في YV24، شارك Pavel كيف توفر Hugging Face أدوات تدعم تدريب نماذج الذكاء الاصطناعي وتحسينها ونشرها. على سبيل المثال، يمكن للابتكارات مثل Transformers و Optimum و Torch Compile أن تساعد المطورين على تحسين أداء النموذج.

مع ازدياد كفاءة نماذج الذكاء الاصطناعي، فإن التطورات في التكميم والنشر الطرفي تسهل تشغيلها على الأجهزة ذات الموارد المحدودة. هذه التحسينات، بالإضافة إلى أدوات مثل Hugging Face ونماذج الرؤية الحاسوبية المتقدمة مثل Ultralytics YOLO11، هي مفتاح بناء تطبيقات رؤية اصطناعية عالية الأداء وقابلة للتطوير.

انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعرف على الذكاء الاصطناعي، وتحقق من تراخيص yolo الخاصة بنا لبدء مشاريع Vision AI الخاصة بك. هل أنت مهتم بالابتكارات مثل الرؤية الحاسوبية في الرعاية الصحية أو الرؤية الحاسوبية في الزراعة؟ قم بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة