افهم بنية EfficientNet وسحر التدرج المركب! استكشف EfficientNet B0-B7 لتصنيف الصور من الدرجة الأولى وكفاءة التجزئة.

افهم بنية EfficientNet وسحر التدرج المركب! استكشف EfficientNet B0-B7 لتصنيف الصور من الدرجة الأولى وكفاءة التجزئة.
في عام 2019، قدم الباحثون في Google للذكاء الاصطناعي EfficientNet، وهو نموذج متطور للرؤية الحاسوبية مصمم للتعرف على الأشياء والأنماط في الصور. تم تصميمه في المقام الأول لتصنيف الصور، والذي يتضمن تعيين صورة إلى واحدة من عدة فئات محددة مسبقًا. ومع ذلك، تعمل EfficientNet اليوم أيضًا كعمود فقري لمهام أكثر تعقيدًا مثل اكتشاف الأجسام وتجزئتها وتعلّم النقل.
قبل EfficientNet، حاولت نماذج التعلم الآلي والذكاء الاصطناعي البصري هذه تحسين الدقة عن طريق إضافة المزيد من الطبقات أو زيادة حجم تلك الطبقات. الطبقات هي الخطوات في نموذج الشبكة العصبية (نوع من نماذج التعلم العميق المستوحاة من الدماغ البشري) التي تعالج البيانات لتعلم الأنماط وتحسين الدقة.
خلقت هذه التغييرات مفاضلة، مما جعل نماذج الذكاء الاصطناعي التقليدية أكبر وأبطأ، في حين أن الدقة الإضافية كانت في الغالب ضئيلة مقارنة بالزيادة الكبيرة في قوة الحوسبة المطلوبة.
اتبعت EfficientNet نهجًا مختلفًا. فقد زادت من العمق (عدد الطبقات) والعرض (عدد الوحدات في كل طبقة) ودقة الصورة (مستوى تفاصيل الصور المدخلة) معًا بطريقة متوازنة. هذه الطريقة، التي تسمى التحجيم المركب، تستخدم بشكل موثوق كل طاقة المعالجة المتاحة. والنتيجة النهائية هي نموذج أصغر وأسرع يمكن أن يؤدي بشكل أفضل من النماذج القديمة مثل ResNet أو DenseNet.
واليوم، توفر نماذج الرؤية الحاسوبية الأحدث مثل Ultralytics YOLO11 دقة وسرعة وكفاءة أكبر. ومع ذلك، تظل EfficientNet علامة فارقة مهمة أثرت في تصميم العديد من البنى المتقدمة.
في هذه المقالة، سنقوم بتفصيل EfficientNet في خمس دقائق، وسنغطي كيفية عملها، وما الذي يجعلها فريدة من نوعها، ولماذا لا تزال مهمة في الرؤية الحاسوبية. لنبدأ!
قبل تصميم EfficientNet، حسّنت معظم نماذج التعرّف على الصور من الدقة من خلال تعديل طبقاتها أو زيادة حجم صورة الإدخال لالتقاط المزيد من التفاصيل. وعلى الرغم من أن هذه الاستراتيجيات حسّنت النتائج، إلا أنها جعلت النماذج أثقل وأكثر تطلباً. وهذا يعني أنها تحتاج إلى ذاكرة أكبر وأجهزة أفضل.
بدلًا من تغيير الطبقات الفردية، يقوم EfficientNet بقياس العمق والعرض ودقة الصورة معًا باستخدام طريقة تسمى القياس المركب. يسمح هذا النهج للنموذج بالنمو بكفاءة دون زيادة التحميل على أي جانب واحد.
تعالج بنية EfficientNet الصور من خلال سلسلة من الكتل، كل منها مبني من وحدات أصغر. يعتمد عدد الوحدات في كل كتلة على حجم النموذج.
وتستخدم الإصدارات الأصغر عددًا أقل من الوحدات، بينما تكرر الإصدارات الأكبر عددًا أكبر من الوحدات. يمكّن هذا التصميم المرن EfficientNet من توفير دقة وكفاءة عالية عبر مجموعة واسعة من التطبيقات، من الأجهزة المحمولة إلى الأنظمة واسعة النطاق.
تعمل طريقة التحجيم المركب على توسيع عمق النموذج وعرضه ودقة الصورة مع الحفاظ على توازنها. وهذا يجعل من الممكن استخدام قوة الحوسبة بكفاءة. تبدأ السلسلة بنموذج أساسي أصغر حجماً يسمى EfficientNet-B0، وهو بمثابة الأساس لجميع الإصدارات الأخرى.
من B0، تتدرج النماذج إلى متغيرات أكبر تسمى EfficientNet-B1 حتى EfficientNet-B7. مع كل خطوة، تكتسب الشبكة طبقات إضافية، وتزيد من عدد القنوات (الوحدات المستخدمة للمعالجة)، وتتعامل مع صور المدخلات ذات الدقة الأعلى. يتم تحديد مقدار النمو في كل خطوة من خلال معلمة تسمى المعامل المركب، والتي تضمن زيادة العمق والعرض والدقة بنسب ثابتة بدلاً من الزيادة بشكل مستقل.
بعد ذلك، دعنا نلقي نظرة على بنية EfficientNet.
وهو مبني على MobileNetV2، وهو نموذج رؤية كمبيوتر خفيف الوزن مُحسَّن للأجهزة المحمولة والمضمنة. ويقع في صميمه كتلة التدوير المقلوب المقلوب (MBConv)، وهي طبقة خاصة تعالج بيانات الصورة مثل التدوير القياسي ولكن بحسابات أقل. تجعل هذه الكتلة النموذج سريعًا وأكثر كفاءة في الذاكرة.
يوجد داخل كل كتلة من كتل MBConv وحدة ضغط واستثارة (SE). تقوم هذه الوحدة بضبط قوة القنوات المختلفة في الشبكة. فهي تعزز قوة القنوات الأساسية وتقلل من قوة القنوات الأخرى. تساعد الوحدة النمطية الشبكة على التركيز على أهم الميزات في الصورة، مع تجاهل باقي الميزات. كما يستخدم نموذج EfficientNet أيضاً دالة تنشيط Swish (وهي دالة رياضية تساعد الشبكة على تعلم الأنماط)، مما يساعدها على اكتشاف الأنماط في الصور بشكل أفضل من الطرق القديمة.
بالإضافة إلى ذلك، يستخدم DropConnect، حيث يتم إيقاف بعض الاتصالات داخل الشبكة عشوائيًا أثناء التدريب. تقلل طريقة التنظيم العشوائي هذه (وهي تقنية عشوائية لمنع النموذج من حفظ بيانات التدريب بدلاً من التعميم) من الإفراط في التكييف من خلال إجبار الشبكة على تعلم تمثيلات أكثر قوة للسمات (أنماط أقوى وأكثر عمومية في البيانات) والتي تنتقل بشكل أفضل إلى البيانات غير المرئية.
الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل نماذج EfficientNet، دعنا نناقش متغيرات النماذج المختلفة.
تتدرج إصدارات EfficientNet من B0 إلى B7، بدءًا من B0 كخط أساس يوازن بين السرعة والدقة. يزيد كل إصدار من العمق والعرض ودقة الصورة، مما يحسن الدقة. ومع ذلك، فإنها تتطلب أيضًا المزيد من القوة الحسابية، من B1 و B2 إلى B6 و B7 عالية الأداء.
في حين أن نموذجي EfficientNet-B3 و EfficientNet-B4 يحققان التوازن للصور الأكبر حجمًا، وغالبًا ما يتم اختيار B5 لمجموعات البيانات المعقدة التي تتطلب الدقة. بالإضافة إلى هذه النماذج، يمكن لأحدث النماذج، EfficientNet V2، تحسين سرعة التدريب، والتعامل مع مجموعات البيانات الصغيرة بشكل أفضل، كما أنه مُحسَّن للأجهزة الحديثة.
تستطيع EfficientNet إنتاج نتائج دقيقة مع استخدام ذاكرة وقوة معالجة أقل من العديد من النماذج الأخرى. وهذا يجعلها مفيدة في العديد من المجالات، من البحث العلمي إلى المنتجات التي يستخدمها الناس يومياً.
غالبًا ما تحتوي الصور الطبية، مثل صور الأشعة المقطعية للرئتين، على تفاصيل دقيقة مهمة للتشخيص الدقيق. يمكن أن تساعد نماذج الذكاء الاصطناعي في تحليل هذه الصور للكشف عن الأنماط التي قد يصعب على البشر اكتشافها. أحد تكييفات EfficientNet لهذا الغرض هو MONAI (الشبكة الطبية المفتوحة للذكاء الاصطناعي) EfficientNet، المصممة خصيصاً لتحليل الصور الطبية.
استنادًا إلى بنية EfficientNet، طور الباحثون أيضًا Lung-EffNet، وهو نموذج يصنف الأشعة المقطعية للرئة للكشف عن الأورام. ويمكنه تصنيف الأورام على أنها أورام حميدة أو خبيثة أو طبيعية، محققًا دقة تزيد عن 99% في الإعدادات التجريبية.
اكتشاف الأجسام هو عملية العثور على الأجسام في الصورة وتحديد مواقعها. وهي جزء أساسي من تطبيقات مثل أنظمة الأمان والسيارات ذاتية القيادة والطائرات بدون طيار.
أصبحت EfficientNet مهمة في هذا المجال لأنها قدمت طريقة فعالة للغاية لاستخراج الميزات من الصور. وقد أظهرت طريقتها في قياس العمق والعرض والدقة كيف يمكن أن تكون النماذج دقيقة دون أن تكون ثقيلة أو بطيئة للغاية. هذا هو السبب في أن العديد من أنظمة الكشف، مثل EfficientDet، تستخدم EfficientNet كعمودها الفقري.
تشترك النماذج الأحدث، مثل Ultralytics YOLO11، في نفس الهدف المتمثل في الجمع بين السرعة والدقة. وقد تأثر هذا الاتجاه نحو النماذج الفعالة بشدة بأفكار من بنيات مثل EfficientNet.
فيما يلي بعض فوائد استخدام EfficientNet في مشاريع الرؤية الحاسوبية:
في حين أن هناك العديد من الفوائد المتعلقة باستخدام EfficientNet، إليك بعض القيود التي يجب وضعها في الاعتبار عند استخدام EfficientNet:
غيرت EfficientNet كيفية نمو نماذج الرؤية الحاسوبية من خلال الحفاظ على توازن العمق والعرض ودقة الصورة. لا يزال نموذجًا مهمًا وأثر على البنى الأحدث أيضًا. على وجه الخصوص، فهو يحتل مكانة مهمة في تاريخ الرؤية الحاسوبية.
انضم إلى مجتمعنا ومستودع GitHub لاستكشاف المزيد عن الذكاء الاصطناعي. اطلع على صفحات الحلول الخاصة بنا للقراءة عن الذكاء الاصطناعي في مجال الرعاية الصحية والرؤية الحاسوبية في مجال السيارات. اكتشف خيارات الترخيص لدينا وابدأ في البناء باستخدام الرؤية الحاسوبية اليوم!