تشغيل مشاريع الرؤية الحاسوبية باستخدام أدوات Hugging Face مفتوحة المصدر

11 فبراير 2025
انضم إلينا بينما نعيد النظر في كلمة رئيسية من YOLO Vision 2024 تركز على استكشاف كيف تعمل أدوات Hugging Face مفتوحة المصدر على تطوير تطوير الذكاء الاصطناعي.

11 فبراير 2025
انضم إلينا بينما نعيد النظر في كلمة رئيسية من YOLO Vision 2024 تركز على استكشاف كيف تعمل أدوات Hugging Face مفتوحة المصدر على تطوير تطوير الذكاء الاصطناعي.
يعد اختيار الخوارزميات الصحيحة جزءًا واحدًا فقط من بناء حلول رؤية حاسوبية مؤثرة. غالبًا ما يعمل مهندسو الذكاء الاصطناعي مع مجموعات بيانات كبيرة، ويقومون بضبط النماذج لمهام محددة، وتحسين أنظمة الذكاء الاصطناعي لتحقيق أداء واقعي. مع اعتماد تطبيقات الذكاء الاصطناعي بسرعة أكبر، تتزايد أيضًا الحاجة إلى أدوات تبسط هذه العمليات.
في YOLO Vision 2024 (YV24)، الفعالية الهجينة السنوية التي تدعمها Ultralytics، اجتمع خبراء الذكاء الاصطناعي والمتحمسون للتكنولوجيا لاستكشاف أحدث الابتكارات في الرؤية الحاسوبية. أثارت الفعالية مناقشات حول مواضيع مختلفة، مثل طرق تسريع تطوير تطبيقات الذكاء الاصطناعي.
كان أحد أبرز الأحداث كلمة رئيسية حول Hugging Face، وهي منصة ذكاء اصطناعي مفتوحة المصدر تعمل على تبسيط تدريب النماذج وتحسينها ونشرها. شارك بافل لاكوبوفسكي، مهندس التعلم الآلي في Hugging Face، كيف تعمل أدواتها على تحسين سير العمل لمهام الرؤية الحاسوبية مثل اكتشاف الكائنات في الصور وتصنيف الصور إلى مجموعات مختلفة وتقديم التنبؤات دون تدريب مسبق على أمثلة محددة (التعلم الصفري).
يستضيف Hugging Face Hub ويوفر الوصول إلى العديد من نماذج الذكاء الاصطناعي و رؤية الكمبيوتر مثل Ultralytics YOLO11. في هذه المقالة، سنلخص النقاط الرئيسية من حديث بافيل ونرى كيف يمكن للمطورين استخدام أدوات Hugging Face مفتوحة المصدر لبناء ونشر نماذج الذكاء الاصطناعي بسرعة.

بدأ بافيل حديثه بتقديم Hugging Face كمنصة ذكاء اصطناعي مفتوحة المصدر تقدم نماذج مدربة مسبقًا لمجموعة متنوعة من التطبيقات. تم تصميم هذه النماذج لفروع مختلفة من الذكاء الاصطناعي، بما في ذلك معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يتيح للأنظمة معالجة أنواع مختلفة من البيانات، مثل النصوص والصور والصوت.
ذكر بافيل أن Hugging Face Hub يستضيف الآن أكثر من مليون نموذج، ويمكن للمطورين بسهولة العثور على نماذج مناسبة لمشاريعهم المحددة. تهدف Hugging Face إلى تبسيط تطوير الذكاء الاصطناعي من خلال تقديم أدوات لتدريب النماذج والضبط الدقيق والنشر. عندما يتمكن المطورون من تجربة نماذج مختلفة، فإن ذلك يبسط عملية دمج الذكاء الاصطناعي في التطبيقات الواقعية.
في حين أن Hugging Face كانت معروفة في البداية بمعالجة اللغة الطبيعية، إلا أنها توسعت منذ ذلك الحين لتشمل الرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يمكّن المطورين من معالجة نطاق أوسع من مهام الذكاء الاصطناعي. لديها أيضًا مجتمع قوي حيث يمكن للمطورين التعاون وتبادل الأفكار والحصول على الدعم من خلال المنتديات و Discord و GitHub.
بالخوض في مزيد من التفاصيل، أوضح بافيل كيف أن أدوات Hugging Face تجعل من السهل بناء تطبيقات رؤية الكمبيوتر. يمكن للمطورين استخدامها في مهام مثل تصنيف الصور واكتشاف الأجسام وتطبيقات الرؤية اللغوية.
وأشار أيضًا إلى أن العديد من مهام رؤية الحاسوب هذه يمكن التعامل معها باستخدام نماذج مُدرَّبة مسبقًا ومتاحة على Hugging Face Hub، مما يوفر الوقت عن طريق تقليل الحاجة إلى التدريب من البداية. في الواقع، تقدم Hugging Face أكثر من 13000 نموذج مُدرَّب مسبقًا لمهام تصنيف الصور، بما في ذلك نماذج لتصنيف الطعام، وتصنيف الحيوانات الأليفة، واكتشاف المشاعر.
مع التأكيد على إمكانية الوصول إلى هذه النماذج، قال: "ربما لا تحتاج حتى إلى تدريب نموذج لمشروعك - قد تجد نموذجًا على Hub تم تدريبه بالفعل بواسطة شخص ما من المجتمع."
في مثال آخر، أوضح بافيل كيف يمكن لـ Hugging Face المساعدة في اكتشاف الأجسام، وهي وظيفة أساسية في رؤية الكمبيوتر تُستخدم لتحديد وتحديد مواقع الأجسام داخل الصور. حتى مع وجود بيانات مصنفة محدودة، يمكن للنماذج المدربة مسبقًا المتوفرة على Hugging Face Hub أن تجعل اكتشاف الأجسام أكثر كفاءة.
كما قدم لمحة سريعة عن العديد من النماذج المصممة لهذه المهمة والتي يمكنك العثور عليها على Hugging Face:
ثم حول بافيل التركيز إلى التدريب العملي على نماذج Hugging Face، موضحًا ثلاث طرق يمكن للمطورين من خلالها الاستفادة منها: استكشاف النماذج واختبارها بسرعة وتخصيصها بشكل أكبر.
أوضح كيف يمكن للمطورين تصفح النماذج مباشرة على Hugging Face Hub دون كتابة أي تعليمات برمجية، مما يسهل اختبار النماذج على الفور من خلال واجهة تفاعلية. وأضاف بافل: "يمكنك تجربتها دون كتابة سطر واحد من التعليمات البرمجية أو تنزيل النموذج على جهاز الكمبيوتر الخاص بك." نظرًا لأن بعض النماذج كبيرة، فإن تشغيلها على Hub يساعد على تجنب قيود التخزين والمعالجة.

أيضًا، تتيح واجهة برمجة تطبيقات Hugging Face Inference للمطورين تشغيل نماذج الذكاء الاصطناعي بمكالمات API بسيطة. إنه أمر رائع للاختبار السريع ومشاريع إثبات المفهوم والنماذج الأولية السريعة دون الحاجة إلى إعداد معقد.
بالنسبة لحالات الاستخدام الأكثر تقدمًا، يمكن للمطورين استخدام إطار عمل Hugging Face Transformers، وهي أداة مفتوحة المصدر توفر نماذج مدربة مسبقًا لمهام النصوص والرؤية والصوت مع دعم كل من PyTorch و TensorFlow. أوضح بافيل أنه باستخدام سطرين فقط من التعليمات البرمجية، يمكن للمطورين استرداد نموذج من Hugging Face Hub وربطه بأداة معالجة مسبقة، مثل معالج الصور، لتحليل بيانات الصور لتطبيقات Vision AI.
بعد ذلك، أوضح بافل كيف يمكن لـ Hugging Face تبسيط سير عمل الذكاء الاصطناعي. أحد الموضوعات الرئيسية التي غطاها هو تحسين آلية الانتباه في Transformers، وهي ميزة أساسية في نماذج التعلم العميق التي تساعدها على التركيز على الأجزاء الأكثر صلة من بيانات الإدخال. هذا يحسن دقة المهام التي تنطوي على معالجة اللغة والرؤية الحاسوبية. ومع ذلك، يمكن أن يكون استهلاكها للموارد كثيفًا.
يمكن أن يؤدي تحسين آلية الانتباه إلى تقليل استخدام الذاكرة بشكل كبير مع تحسين السرعة. وأشار بافيل إلى أنه "على سبيل المثال، من خلال التحول إلى تطبيق انتباه أكثر كفاءة، يمكنك رؤية أداء أسرع بما يصل إلى 1.8 مرة."
توفر Hugging Face دعمًا مدمجًا لتطبيقات الانتباه الأكثر كفاءة داخل إطار عمل Transformers. يمكن للمطورين تمكين هذه التحسينات ببساطة عن طريق تحديد تطبيق انتباه بديل عند تحميل نموذج.
كما تحدث عن التكميم (quantization)، وهي تقنية تجعل نماذج الذكاء الاصطناعي أصغر حجمًا عن طريق تقليل دقة الأرقام التي تستخدمها دون التأثير على الأداء بشكل كبير. يساعد هذا النماذج على استخدام ذاكرة أقل وتشغيل أسرع، مما يجعلها أكثر ملاءمة للأجهزة ذات القدرة المحدودة على المعالجة، مثل الهواتف الذكية والأنظمة المدمجة.
لزيادة تحسين الكفاءة، قدم Pavel مكتبة Hugging Face Optimum، وهي مجموعة من الأدوات المصممة لتحسين ونشر النماذج. باستخدام بضعة أسطر فقط من التعليمات البرمجية، يمكن للمطورين تطبيق تقنيات التكميم وتحويل النماذج إلى تنسيقات فعالة مثل ONNX (تبادل الشبكة العصبية المفتوحة)، مما يسمح لها بالعمل بسلاسة على أنواع مختلفة من الأجهزة، بما في ذلك الخوادم السحابية والأجهزة الطرفية.

أخيرًا، ذكر Pavel فوائد Torch Compile، وهي ميزة في PyTorch تعمل على تحسين كيفية معالجة نماذج الذكاء الاصطناعي للبيانات، مما يجعلها تعمل بشكل أسرع وأكثر كفاءة. تدمج Hugging Face ميزة Torch Compile داخل مكتبات Transformers و Optimum الخاصة بها، مما يتيح للمطورين الاستفادة من تحسينات الأداء هذه بأقل قدر من تغييرات التعليمات البرمجية.
من خلال تحسين هيكل حسابات النموذج، يمكن لـ Torch Compile تسريع أوقات الاستدلال وزيادة معدلات الإطارات من 29 إلى 150 إطارًا في الثانية دون المساس بالدقة أو الجودة.
بالانتقال إلى الأمام، تطرق بافل بإيجاز إلى كيف يمكن للمطورين توسيع ونشر نماذج Vision AI باستخدام أدوات Hugging Face بعد تحديد النموذج المناسب واختيار أفضل نهج للتطوير.
على سبيل المثال، يمكن للمطورين نشر تطبيقات الذكاء الاصطناعي التفاعلية باستخدام Gradio و Streamlit. يتيح Gradio للمطورين إنشاء واجهات قائمة على الويب لنماذج تعلم الآلة، بينما يساعد Streamlit في بناء تطبيقات بيانات تفاعلية باستخدام نصوص Python بسيطة.
أشار بافيل أيضًا إلى أنه "لا تحتاج إلى البدء في كتابة كل شيء من البداية"، في إشارة إلى الأدلة ودفاتر التدريب والبرامج النصية النموذجية التي توفرها Hugging Face. تساعد هذه الموارد المطورين على البدء بسرعة دون الحاجة إلى بناء كل شيء من الألف إلى الياء.

في ختام كلمته الرئيسية، لخص Pavel مزايا استخدام Hugging Face Hub. وأكد كيف أنه يبسط إدارة النماذج والتعاون. كما لفت الانتباه إلى توافر الأدلة ودفاتر الملاحظات والبرامج التعليمية، والتي يمكن أن تساعد المبتدئين والخبراء على فهم نماذج الذكاء الاصطناعي وتنفيذها.
"هناك الكثير من المساحات الرائعة بالفعل على Hub. يمكنك العثور على مساحات مماثلة، واستنساخ التعليمات البرمجية المشتركة، وتعديل بضعة أسطر، واستبدال النموذج بنموذجك الخاص، ودفعه مرة أخرى،" أوضح، مشجعًا المطورين على الاستفادة من مرونة النظام الأساسي.
خلال حديثه في YV24، شارك Pavel كيف توفر Hugging Face أدوات تدعم تدريب نماذج الذكاء الاصطناعي وتحسينها ونشرها. على سبيل المثال، يمكن للابتكارات مثل Transformers و Optimum و Torch Compile أن تساعد المطورين على تحسين أداء النموذج.
مع ازدياد كفاءة نماذج الذكاء الاصطناعي، فإن التطورات في التكميم والنشر الطرفي تسهل تشغيلها على الأجهزة ذات الموارد المحدودة. هذه التحسينات، بالإضافة إلى أدوات مثل Hugging Face ونماذج الرؤية الحاسوبية المتقدمة مثل Ultralytics YOLO11، هي مفتاح بناء تطبيقات رؤية اصطناعية عالية الأداء وقابلة للتطوير.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعرف على الذكاء الاصطناعي، وتحقق من تراخيص yolo الخاصة بنا لبدء مشاريع Vision AI الخاصة بك. هل أنت مهتم بالابتكارات مثل الرؤية الحاسوبية في الرعاية الصحية أو الرؤية الحاسوبية في الزراعة؟ قم بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد!