فهم بنية EfficientNet وسحر التحجيم المركب الخاص بها! استكشف EfficientNet B0-B7 لتحقيق كفاءة عالية في تصنيف الصور وتقسيمها.

فهم بنية EfficientNet وسحر التحجيم المركب الخاص بها! استكشف EfficientNet B0-B7 لتحقيق كفاءة عالية في تصنيف الصور وتقسيمها.
في عام 2019، قدم باحثون في Google AI نموذج EfficientNet، وهو نموذج رؤية حاسوبية حديث مصمم للتعرف على الكائنات والأنماط في الصور. صُمم EfficientNet في الأساس لتصنيف الصور، والذي يتضمن تعيين صورة إلى إحدى الفئات المحددة مسبقًا. ومع ذلك، يُستخدم EfficientNet اليوم أيضًا كعمود فقري لمهام أكثر تعقيدًا مثل اكتشاف الكائنات والتجزئة والتعلم بالنقل.
قبل EfficientNet، حاولت نماذج التعلم الآلي ورؤية الحاسوب هذه تحسين الدقة عن طريق إضافة المزيد من الطبقات أو زيادة حجم تلك الطبقات. الطبقات هي الخطوات الموجودة في نموذج الشبكة العصبية (نوع من نماذج التعلم العميق المستوحاة من الدماغ البشري) التي تعالج البيانات لتعلم الأنماط وتحسين الدقة.
أدت هذه التغييرات إلى مفاضلة، مما جعل نماذج الذكاء الاصطناعي التقليدية أكبر وأبطأ، في حين أن الدقة الإضافية كانت غالبًا ضئيلة مقارنة بالزيادة الكبيرة في القدرة الحاسوبية المطلوبة.
اتبعت EfficientNet نهجًا مختلفًا. فقد زادت العمق (عدد الطبقات) والعرض (عدد الوحدات في كل طبقة) ودقة الصورة (مستوى التفاصيل في الصور المدخلة) معًا بطريقة متوازنة. تستخدم هذه الطريقة، التي تسمى القياس المركب، جميع طاقة المعالجة المتاحة بشكل موثوق. والنتيجة النهائية هي نموذج أصغر وأسرع يمكنه الأداء بشكل أفضل من النماذج القديمة مثل ResNet أو DenseNet.
اليوم، تقدم نماذج رؤية الكمبيوتر الأحدث مثل Ultralytics YOLO11 دقة وسرعة وكفاءة أكبر. ومع ذلك، يظل EfficientNet علامة فارقة مهمة أثرت في تصميم العديد من البنى المتقدمة.
في هذه المقالة، سنقوم بتحليل EfficientNet في خمس دقائق، وتغطية كيفية عمله وما الذي يجعله فريدًا وسبب أهميته حتى الآن في رؤية الكمبيوتر. هيا بنا نبدأ!
قبل تصميم EfficientNet، حسنت معظم نماذج التعرف على الصور الدقة عن طريق تعديل طبقاتها أو زيادة حجم صورة الإدخال لالتقاط المزيد من التفاصيل. في حين أن هذه الاستراتيجيات حسنت النتائج، إلا أنها جعلت النماذج أثقل وأكثر تطلبًا. هذا يعني أنهم بحاجة إلى المزيد من الذاكرة وأجهزة أفضل.
بدلاً من تغيير الطبقات الفردية، يقوم EfficientNet بتوسيع نطاق العمق والعرض ودقة الصورة معًا باستخدام طريقة تسمى التحجيم المركب. يسمح هذا النهج للنموذج بالنمو بكفاءة دون زيادة التحميل على أي جانب واحد.
تعالج بنية EfficientNet الصور من خلال سلسلة من الكتل، كل منها مبني من وحدات أصغر. يعتمد عدد الوحدات في كل كتلة على حجم النموذج.
تستخدم الإصدارات الأصغر عددًا أقل من الوحدات، بينما تكرر الإصدارات الأكبر الوحدات في أغلب الأحيان. يُمكّن هذا التصميم المرن EfficientNet من تقديم دقة وكفاءة عاليتين عبر مجموعة واسعة من التطبيقات، من الأجهزة المحمولة إلى الأنظمة واسعة النطاق.
تعمل طريقة القياس المركب على توسيع عمق النموذج وعرضه ودقة الصورة ولكنها تحافظ عليها في حالة توازن. وهذا يجعل من الممكن استخدام قوة الحوسبة بكفاءة. تبدأ السلسلة بنموذج أساسي أصغر يسمى EfficientNet-B0، والذي يعمل كأساس لجميع الإصدارات الأخرى.
من B0، تتوسع النماذج إلى متغيرات أكبر تسمى EfficientNet-B1 حتى EfficientNet-B7. مع كل خطوة، تكتسب الشبكة طبقات إضافية، وتزيد من عدد القنوات (الوحدات المستخدمة للمعالجة)، وتتعامل مع صور إدخال ذات دقة أعلى. يتم تحديد مقدار النمو في كل خطوة بواسطة معلمة تسمى معامل المركب، والذي يضمن زيادة العمق والعرض والدقة بنسب ثابتة بدلاً من زيادتها بشكل مستقل.
بعد ذلك، دعنا نلقي نظرة على بنية EfficientNet.
إنه مبني على MobileNetV2، وهو نموذج رؤية حاسوبية خفيف الوزن مُحسَّن للأجهزة المحمولة والمدمجة. في جوهره يوجد Mobile Inverted Bottleneck Convolution (MBConv)، وهي طبقة خاصة تعالج بيانات الصورة مثل الالتفاف القياسي ولكن مع عدد أقل من العمليات الحسابية. هذه الكتلة تجعل النموذج سريعًا وأكثر كفاءة في استخدام الذاكرة.
يوجد داخل كل كتلة من كتل MBConv وحدة الضغط والإثارة (SE). تقوم هذه الوحدة بضبط قوة القنوات المختلفة في الشبكة. إنها تعزز قوة القنوات الأساسية وتقلل من قوة القنوات الأخرى. تساعد الوحدة الشبكة على التركيز على أهم الميزات في الصورة، مع تجاهل الباقي. يستخدم نموذج EfficientNet أيضًا دالة تنشيط Swish (دالة رياضية تساعد الشبكة على تعلم الأنماط)، مما يساعده على اكتشاف الأنماط في الصور بشكل أفضل من الطرق القديمة.
بالإضافة إلى ذلك، فإنه يستخدم DropConnect، حيث يتم إيقاف تشغيل بعض الاتصالات داخل الشبكة بشكل عشوائي أثناء التدريب. تعمل طريقة التنظيم العشوائي هذه (تقنية عشوائية لمنع النموذج من حفظ بيانات التدريب بدلاً من التعميم) على تقليل التجاوز عن طريق إجبار الشبكة على تعلم تمثيلات ميزات أكثر قوة (أنماط أقوى وأكثر عمومية في البيانات) تنتقل بشكل أفضل إلى البيانات غير المرئية.
الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل نماذج EfficientNet، دعنا نناقش متغيرات النموذج المختلفة.
تتدرج نماذج EfficientNet من B0 إلى B7، بدءًا من B0 كخط أساسي يوازن بين السرعة والدقة. تزيد كل نسخة من العمق والعرض ودقة الصورة، مما يحسن الدقة. ومع ذلك، فإنها تتطلب أيضًا المزيد من قوة الحوسبة، من B1 و B2 إلى B6 و B7 عالية الأداء.
بينما تحقق نماذج EfficientNet-B3 و EfficientNet-B4 توازنًا للصور الأكبر حجمًا، غالبًا ما يتم اختيار B5 لمجموعات البيانات المعقدة التي تتطلب دقة. بالإضافة إلى هذه النماذج، يمكن للنموذج الأخير، EfficientNet V2، تحسين سرعة التدريب والتعامل مع مجموعات البيانات الصغيرة بشكل أفضل، وهو مُحسَّن للأجهزة الحديثة.
يمكن لـ EfficientNet إنتاج نتائج دقيقة مع استخدام ذاكرة وطاقة معالجة أقل من العديد من النماذج الأخرى. وهذا يجعله مفيدًا في العديد من المجالات، من البحث العلمي إلى المنتجات التي يستخدمها الناس يوميًا.
غالبًا ما تحتوي الصور الطبية، مثل فحوصات التصوير المقطعي المحوسب للرئتين، على تفاصيل دقيقة ضرورية للتشخيص الدقيق. يمكن لنماذج الذكاء الاصطناعي المساعدة في تحليل هذه الصور للكشف عن الأنماط التي قد يصعب على البشر اكتشافها. أحد التعديلات على EfficientNet لهذا الغرض هو MONAI (شبكة مفتوحة طبية للذكاء الاصطناعي) EfficientNet، المصمم خصيصًا لتحليل الصور الطبية.
بالاعتماد على بنية EfficientNet، طور الباحثون أيضًا Lung-EffNet، وهو نموذج يصنف فحوصات التصوير المقطعي المحوسب للرئة للكشف عن الأورام. يمكنه تصنيف الأورام على أنها حميدة أو خبيثة أو طبيعية، وتحقيق دقة تزيد عن 99٪ في البيئات التجريبية.
اكتشاف الكائنات هو عملية العثور على الكائنات في صورة وتحديد مواقعها. إنه جزء أساسي من تطبيقات مثل أنظمة الأمان والسيارات ذاتية القيادة والطائرات بدون طيار.
أصبح EfficientNet مهمًا في هذا المجال لأنه قدم طريقة فعالة جدًا لاستخراج الميزات من الصور. أظهرت طريقته في توسيع العمق والعرض والدقة كيف يمكن للنماذج أن تكون دقيقة دون أن تكون ثقيلة أو بطيئة للغاية. هذا هو السبب في أن العديد من أنظمة الكشف، مثل EfficientDet، تستخدم EfficientNet كعمود فقري لها.
تشترك النماذج الأحدث، مثل Ultralytics YOLO11، في نفس الهدف المتمثل في الجمع بين السرعة والدقة. وقد تأثر هذا الاتجاه نحو النماذج الفعالة بشدة بأفكار من بنيات مثل EfficientNet.
فيما يلي بعض فوائد استخدام EfficientNet في مشاريع رؤية الكمبيوتر:
في حين أن هناك العديد من الفوائد المتعلقة باستخدام EfficientNet، إليك بعض قيود EfficientNet التي يجب وضعها في الاعتبار:
غيرت EfficientNet طريقة نمو نماذج رؤية الكمبيوتر من خلال الحفاظ على توازن العمق والعرض ودقة الصورة. لا يزال نموذجًا مهمًا وقد أثر على البنى الأحدث أيضًا. على وجه الخصوص، يحتل مكانة ذات مغزى في تاريخ رؤية الكمبيوتر.
انضم إلى مجتمعنا ومستودع GitHub لاستكشاف المزيد حول الذكاء الاصطناعي. تفقد صفحات الحلول لدينا لتقرأ عن الذكاء الاصطناعي في الرعاية الصحية ورؤية الحاسوب في صناعة السيارات. اكتشف خيارات الترخيص لدينا وابدأ البناء باستخدام رؤية الحاسوب اليوم!