EfficientNet: التحجيم المركب والهندسة المعمارية

في عام 2019، قدم الباحثون في Google للذكاء الاصطناعي EfficientNet، وهو نموذج متطور للرؤية الحاسوبية مصمم للتعرف على الأشياء والأنماط في الصور. تم تصميمه في المقام الأول لتصنيف الصور، والذي يتضمن تعيين صورة إلى واحدة من عدة فئات محددة مسبقًا. ومع ذلك، تعمل EfficientNet اليوم أيضًا كعمود فقري لمهام أكثر تعقيدًا مثل اكتشاف الأجسام وتجزئتها وتعلّم النقل.

قبل EfficientNet، حاولت نماذج التعلم الآلي ورؤية الحاسوب هذه تحسين الدقة عن طريق إضافة المزيد من الطبقات أو زيادة حجم تلك الطبقات. الطبقات هي الخطوات الموجودة في نموذج الشبكة العصبية (نوع من نماذج التعلم العميق المستوحاة من الدماغ البشري) التي تعالج البيانات لتعلم الأنماط وتحسين الدقة.

أدت هذه التغييرات إلى مفاضلة، مما جعل نماذج الذكاء الاصطناعي التقليدية أكبر وأبطأ، في حين أن الدقة الإضافية كانت غالبًا ضئيلة مقارنة بالزيادة الكبيرة في القدرة الحاسوبية المطلوبة.

اتبعت EfficientNet نهجًا مختلفًا. فقد زادت العمق (عدد الطبقات) والعرض (عدد الوحدات في كل طبقة) ودقة الصورة (مستوى التفاصيل في الصور المدخلة) معًا بطريقة متوازنة. تستخدم هذه الطريقة، التي تسمى القياس المركب، جميع طاقة المعالجة المتاحة بشكل موثوق. والنتيجة النهائية هي نموذج أصغر وأسرع يمكنه الأداء بشكل أفضل من النماذج القديمة مثل ResNet أو DenseNet.

اليوم، نماذج الرؤية الحاسوبية الأحدث مثل Ultralytics YOLO11 توفر دقة وسرعة وكفاءة أكبر. ومع ذلك، تظل EfficientNet علامة فارقة مهمة أثرت في تصميم العديد من البنى المتقدمة.

في هذه المقالة، سنقوم بتحليل EfficientNet في خمس دقائق، وتغطية كيفية عمله وما الذي يجعله فريدًا وسبب أهميته حتى الآن في رؤية الكمبيوتر. هيا بنا نبدأ!

ما هو EfficientNet؟

قبل تصميم EfficientNet، حسنت معظم نماذج التعرف على الصور الدقة عن طريق تعديل طبقاتها أو زيادة حجم صورة الإدخال لالتقاط المزيد من التفاصيل. في حين أن هذه الاستراتيجيات حسنت النتائج، إلا أنها جعلت النماذج أثقل وأكثر تطلبًا. هذا يعني أنهم بحاجة إلى المزيد من الذاكرة وأجهزة أفضل.

بدلاً من تغيير الطبقات الفردية، يقوم EfficientNet بتوسيع نطاق العمق والعرض ودقة الصورة معًا باستخدام طريقة تسمى التحجيم المركب. يسمح هذا النهج للنموذج بالنمو بكفاءة دون زيادة التحميل على أي جانب واحد.

تعالج بنية EfficientNet الصور من خلال سلسلة من الكتل، كل منها مبني من وحدات أصغر. يعتمد عدد الوحدات في كل كتلة على حجم النموذج.

الشكل 1. اللبنات الأساسية لـ EfficientNet. (المصدر)

‍

تستخدم الإصدارات الأصغر عددًا أقل من الوحدات، بينما تكرر الإصدارات الأكبر الوحدات في أغلب الأحيان. يُمكّن هذا التصميم المرن EfficientNet من تقديم دقة وكفاءة عاليتين عبر مجموعة واسعة من التطبيقات، من الأجهزة المحمولة إلى الأنظمة واسعة النطاق.

كيف يعمل التحجيم المركب (compound scaling)؟

تعمل طريقة القياس المركب على توسيع عمق النموذج وعرضه ودقة الصورة ولكنها تحافظ عليها في حالة توازن. وهذا يجعل من الممكن استخدام قوة الحوسبة بكفاءة. تبدأ السلسلة بنموذج أساسي أصغر يسمى EfficientNet-B0، والذي يعمل كأساس لجميع الإصدارات الأخرى.

من B0، تتوسع النماذج إلى متغيرات أكبر تسمى EfficientNet-B1 حتى EfficientNet-B7. مع كل خطوة، تكتسب الشبكة طبقات إضافية، وتزيد من عدد القنوات (الوحدات المستخدمة للمعالجة)، وتتعامل مع صور إدخال ذات دقة أعلى. يتم تحديد مقدار النمو في كل خطوة بواسطة معلمة تسمى معامل المركب، والذي يضمن زيادة العمق والعرض والدقة بنسب ثابتة بدلاً من زيادتها بشكل مستقل.

الشكل 2. يزيد توسيع النطاق المركب من عرض النموذج وعمقه ودقة الصورة. (المصدر)

‍

هندسة EfficientNet

بعد ذلك، دعنا نلقي نظرة على بنية EfficientNet.

إنه مبني على MobileNetV2، وهو نموذج رؤية حاسوبية خفيف الوزن مُحسَّن للأجهزة المحمولة والمدمجة. في جوهره يوجد Mobile Inverted Bottleneck Convolution (MBConv)، وهي طبقة خاصة تعالج بيانات الصورة مثل الالتفاف القياسي ولكن مع عدد أقل من العمليات الحسابية. هذه الكتلة تجعل النموذج سريعًا وأكثر كفاءة في استخدام الذاكرة.

يوجد داخل كل كتلة من كتل MBConv وحدة الضغط والإثارة (SE). تقوم هذه الوحدة بضبط قوة القنوات المختلفة في الشبكة. إنها تعزز قوة القنوات الأساسية وتقلل من قوة القنوات الأخرى. تساعد الوحدة الشبكة على التركيز على أهم الميزات في الصورة، مع تجاهل الباقي. يستخدم نموذج EfficientNet أيضًا دالة تنشيط Swish (دالة رياضية تساعد الشبكة على تعلم الأنماط)، مما يساعده على اكتشاف الأنماط في الصور بشكل أفضل من الطرق القديمة.

بالإضافة إلى ذلك، فإنه يستخدم DropConnect، حيث يتم إيقاف تشغيل بعض الاتصالات داخل الشبكة بشكل عشوائي أثناء التدريب. تعمل طريقة التنظيم العشوائي هذه (تقنية عشوائية لمنع النموذج من حفظ بيانات التدريب بدلاً من التعميم) على تقليل التجاوز عن طريق إجبار الشبكة على تعلم تمثيلات ميزات أكثر قوة (أنماط أقوى وأكثر عمومية في البيانات) تنتقل بشكل أفضل إلى البيانات غير المرئية.

‍

نظرة عامة موجزة عن متغيرات نموذج EfficientNet

الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل نماذج EfficientNet، دعنا نناقش متغيرات النموذج المختلفة.

تتدرج نماذج EfficientNet من B0 إلى B7، بدءًا من B0 كخط أساسي يوازن بين السرعة والدقة. تزيد كل نسخة من العمق والعرض ودقة الصورة، مما يحسن الدقة. ومع ذلك، فإنها تتطلب أيضًا المزيد من قوة الحوسبة، من B1 و B2 إلى B6 و B7 عالية الأداء.

بينما تحقق نماذج EfficientNet-B3 و EfficientNet-B4 توازنًا للصور الأكبر حجمًا، غالبًا ما يتم اختيار B5 لمجموعات البيانات المعقدة التي تتطلب دقة. بالإضافة إلى هذه النماذج، يمكن للنموذج الأخير، EfficientNet V2، تحسين سرعة التدريب والتعامل مع مجموعات البيانات الصغيرة بشكل أفضل، وهو مُحسَّن للأجهزة الحديثة.

تطبيقات EfficientNet

يمكن لـ EfficientNet إنتاج نتائج دقيقة مع استخدام ذاكرة وطاقة معالجة أقل من العديد من النماذج الأخرى. وهذا يجعله مفيدًا في العديد من المجالات، من البحث العلمي إلى المنتجات التي يستخدمها الناس يوميًا.

تحليل الصور الطبية

غالبًا ما تحتوي الصور الطبية، مثل صور الأشعة المقطعية للرئتين، على تفاصيل دقيقة مهمة للتشخيص الدقيق. يمكن أن تساعد نماذج الذكاء الاصطناعي في تحليل هذه الصور للكشف عن الأنماط التي قد يصعب على البشر detect. أحد تكييفات EfficientNet لهذا الغرض هو MONAI (الشبكة الطبية المفتوحة للذكاء الاصطناعي) EfficientNet، المصممة خصيصاً لتحليل الصور الطبية.

استنادًا إلى بنية EfficientNet، طور الباحثون أيضًا Lung-EffNet، وهو نموذج يصنف الأشعة المقطعية للرئة detect الأورام. ويمكنه تصنيف الأورام على أنها أورام حميدة أو خبيثة أو طبيعية، محققًا دقة تزيد عن 99% في الإعدادات التجريبية.

الشكل 4. تصنيف صور الأورام باستخدام Lung-EffNet. (المصدر)

‍

الكشف عن الكائنات في الوقت الفعلي

اكتشاف الكائنات هو عملية العثور على الكائنات في صورة وتحديد مواقعها. إنه جزء أساسي من تطبيقات مثل أنظمة الأمان والسيارات ذاتية القيادة والطائرات بدون طيار.

أصبح EfficientNet مهمًا في هذا المجال لأنه قدم طريقة فعالة جدًا لاستخراج الميزات من الصور. أظهرت طريقته في توسيع العمق والعرض والدقة كيف يمكن للنماذج أن تكون دقيقة دون أن تكون ثقيلة أو بطيئة للغاية. هذا هو السبب في أن العديد من أنظمة الكشف، مثل EfficientDet، تستخدم EfficientNet كعمود فقري لها.

تشترك النماذج الأحدث، مثل Ultralytics YOLO11 في نفس الهدف المتمثل في الجمع بين السرعة والدقة. وقد تأثر هذا الاتجاه نحو النماذج الفعالة بشدة بأفكار من بنيات مثل EfficientNet.

إيجابيات وسلبيات EfficientNet

فيما يلي بعض فوائد استخدام EfficientNet في مشاريع رؤية الكمبيوتر:

دقة عالية مع عدد أقل من المعلمات: يمكن لـ EfficientNet تقديم دقة مماثلة أو أفضل من النماذج القديمة مثل ResNet أو DenseNet. ومع ذلك، فإنه يستخدم عددًا أقل من المعلمات، مما يجعله أسرع في التدريب وأسهل في النشر.
‍
عائلة نماذج قابلة للتطوير: بدءًا من B0 إلى B7، يمكنك اختيار إصدار يطابق متطلبات الأجهزة والدقة الخاصة بك دون تغيير الشبكة الأساسية.
‍
جيد للتعلم بالنقل: يمكن لـ EfficientNet تقديم أداء نموذج موثوق به للتعلم بالنقل، وهي عملية إعادة تدريب نموذج مُدرَّب مسبقًا لمهمة مخصصة. يمكن أن يعمل كعمود فقري لمجموعة متنوعة من مهام رؤية الكمبيوتر. كما أظهر نتائج قوية عند ضبطه بدقة. على سبيل المثال، حقق دقة فائقة على CIFAR-100، وهي مجموعة بيانات لتصنيف الصور مستخدمة على نطاق واسع، مع عدد أقل بكثير من المعلمات مقارنة بالنماذج السابقة.

في حين أن هناك العديد من الفوائد المتعلقة باستخدام EfficientNet، إليك بعض قيود EfficientNet التي يجب وضعها في الاعتبار:

يتطلب المزيد من الذاكرة: تتطلب إصدارات مثل EfficientNet-B6 و EfficientNet-B7 الكثير من ذاكرة GPU .
‍
ضبط القياس ل ImageNet: تم تصميم إعدادات القياس ل ImageNet لذا قد ينخفض الأداء على مجموعات بيانات مختلفة جدًا دون ضبطها بدقة. وينطبق هذا الأمر بشكل خاص على مجموعات البيانات الصغيرة، نظرًا لأن بنية EfficientNet وقياسها مصممان لمجموعة بيانات كبيرة ومتنوعة مثل ImageNet والتي توفر بيانات كافية لتبرير عمقها وعرضها.
‍
أبطأ على بعض الأجهزة: يستخدم EfficientNet طبقات تسمى MBConv مصممة لتحقيق الكفاءة على الأجهزة الحديثة. على وحدات معالجة الرسومات أو وحدات المعالجة المركزية القديمة، قد تعمل هذه الطبقات ببطء أكبر.

النقاط الرئيسية

غيرت EfficientNet طريقة نمو نماذج رؤية الكمبيوتر من خلال الحفاظ على توازن العمق والعرض ودقة الصورة. لا يزال نموذجًا مهمًا وقد أثر على البنى الأحدث أيضًا. على وجه الخصوص، يحتل مكانة ذات مغزى في تاريخ رؤية الكمبيوتر.

انضم إلى مجتمعنا ومستودع GitHub لاستكشاف المزيد حول الذكاء الاصطناعي. تفقد صفحات الحلول لدينا لتقرأ عن الذكاء الاصطناعي في الرعاية الصحية ورؤية الحاسوب في صناعة السيارات. اكتشف خيارات الترخيص لدينا وابدأ البناء باستخدام رؤية الحاسوب اليوم!

ما هو EfficientNet؟ نظرة عامة سريعة.

ما هو EfficientNet؟

كيف يعمل التحجيم المركب (compound scaling)؟

هندسة EfficientNet

نظرة عامة موجزة عن متغيرات نموذج EfficientNet

تطبيقات EfficientNet

تحليل الصور الطبية

الكشف عن الكائنات في الوقت الفعلي

إيجابيات وسلبيات EfficientNet

النقاط الرئيسية

اقرأ المزيد في هذه الفئة

ما هو تقدير العمق الأحادي العين؟ نظرة عامة

ما هو حساب الصور؟ مقدمة سريعة

ما هو مطابقة القوالب؟ دليل سريع

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ما هو EfficientNet؟ نظرة عامة سريعة.

ما هو EfficientNet؟

كيف يعمل التحجيم المركب (compound scaling)؟

هندسة EfficientNet

نظرة عامة موجزة عن متغيرات نموذج EfficientNet

تطبيقات EfficientNet

تحليل الصور الطبية

الكشف عن الكائنات في الوقت الفعلي

إيجابيات وسلبيات EfficientNet

النقاط الرئيسية

اقرأ المزيد في هذه الفئة

ما هو تقدير العمق الأحادي العين؟ نظرة عامة

ما هو حساب الصور؟ مقدمة سريعة

ما هو مطابقة القوالب؟ دليل سريع

لنبنِ مستقبل الذكاء الاصطناعي معًا!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!