استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

دليل حول بنية U-Net وتطبيقاتها

أبيرامي فينا

5 دقائق قراءة

15 يوليو، 2025

تعرّف على بنية U-Net، وكيف تدعم تجزئة الصور، وتطبيقاتها، ولماذا هي مهمة في تطور الرؤية الحاسوبية.

الرؤية الحاسوبية هي فرع من فروع الذكاء الاصطناعي (AI) يركز على تحليل البيانات المرئية. لقد مهدت الطريق للعديد من الأنظمة المتطورة، مثل أتمتة عملية فحص المنتجات في المصانع ومساعدة المركبات ذاتية القيادة على التنقل في الطرق. 

إحدى مهام رؤية الكمبيوتر المعروفة هي اكتشاف الكائنات. تمكن هذه المهمة النماذج من تحديد مواقع الكائنات وتحديدها داخل صورة باستخدام مربعات إحاطة. في حين أن مربعات الإحاطة مفيدة لمختلف التطبيقات، إلا أنها توفر تقديرًا تقريبيًا فقط لموقع الكائن.

ومع ذلك، في مجالات مثل الرعاية الصحية، حيث الدقة أمر بالغ الأهمية، تعتمد حالات استخدام الرؤية الاصطناعية على أكثر من مجرد تحديد كائن. غالبًا ما تتطلب أيضًا معلومات تتعلق بالشكل والموضع الدقيقين للكائنات.

هذا بالضبط ما صُممت مهمة تجزئة الصور في رؤية الحاسوب للقيام به. بدلًا من استخدام مربعات الإحاطة، تكتشف نماذج التجزئة الكائنات على مستوى البكسل. على مر السنين، طور الباحثون نماذج رؤية حاسوب متخصصة للتجزئة.

أحد هذه النماذج هو U-Net. على الرغم من أن النماذج الأحدث والأكثر تقدمًا قد تجاوزت أدائها، إلا أن U-Net تحتل مكانة مهمة في تاريخ رؤية الكمبيوتر. في هذه المقالة، سنلقي نظرة فاحصة على بنية U-Net، وكيفية عملها، وأين تم استخدامها، وكيف تقارن بنماذج التجزئة الحديثة المتوفرة اليوم.

الشكل 1. مثال على التجزئة باستخدام نموذج U-Net للتعلم العميق. (المصدر)

تاريخ تجزئة الصور

قبل أن نتعمق في ماهية U-Net، دعنا أولاً نحصل على فكرة أفضل عن كيفية تطور نماذج تجزئة الصور.

في البداية، اعتمدت رؤية الحاسوب على التقنيات التقليدية مثل اكتشاف الحواف أو تحديد العتبات أو نمو المنطقة لفصل الكائنات في الصورة. تم استخدام هذه التقنيات لاكتشاف حدود الكائن باستخدام الحواف، وفصل المناطق حسب كثافة البكسل، وتجميع وحدات البكسل المتشابهة. لقد نجحت في الحالات البسيطة ولكنها غالبًا ما تفشل عندما تحتوي الصور على ضوضاء أو أشكال متداخلة أو حدود غير واضحة.

بعد صعود التعلم العميق في 2012، قدم الباحثون مفهوم الشبكات التلافيفية الكاملة (FCNs) في عام 2014 لمهام مثل التجزئة الدلالية. استبدلت هذه النماذج أجزاء معينة من شبكة تلافيفية للسماح للكمبيوتر بالنظر إلى صورة كاملة مرة واحدة، بدلاً من تقسيمها إلى أجزاء أصغر. وقد جعل هذا من الممكن للنموذج إنشاء خرائط تفصيلية تعرض ما هو موجود في الصورة بشكل أكثر وضوحًا.

الشكل 2. تطور خوارزميات التجزئة القائمة على التعلم العميق. (المصدر)

بالاعتماد على شبكات FCNs، تم تقديم U-Net من قبل باحثين في جامعة فرايبورغ في عام 2015. وقد تم تصميمه في الأصل لـ تجزئة الصور الطبية الحيوية. على وجه الخصوص، تم تصميم U-Net لتقديم أداء جيد في الحالات التي تكون فيها البيانات المشروحة محدودة. 

وفي الوقت نفسه، أضافت الإصدارات اللاحقة مثل UNet++ و TransUNet ترقيات مثل طبقات الانتباه واستخراج ميزات أفضل. تساعد طبقات الانتباه النموذج على التركيز على المناطق الرئيسية، بينما يلتقط استخراج الميزات المحسن معلومات أكثر تفصيلاً.

ما هي شبكة U-Net، وكيف تتدفق الميزات من خلال النموذج؟

U-Net هي نموذج تعلم عميق تم تصميمه خصيصًا لتقسيم الصور. يأخذ صورة كمدخل وينتج قناع تقسيم يصنف كل بكسل وفقًا للكائن أو المنطقة التي ينتمي إليها.

يستمد النموذج اسمه من بنيته على شكل حرف U. يتكون من جزأين رئيسيين: مشفر يضغط الصورة ويتعلم ميزاتها، ووحدة فك ترميز توسعها مرة أخرى إلى الحجم الأصلي. يخلق هذا التصميم شكل U متماثل، مما يساعد النموذج على فهم كل من الهيكل العام للصورة وتفاصيلها الدقيقة.

إحدى الميزات الحاسمة لـ U-Net هي استخدام اتصالات التخطي، والتي تسمح بنقل المعلومات من المشفر مباشرة إلى وحدة فك التشفير. هذا يعني أن النموذج يمكنه الحفاظ على التفاصيل المهمة التي قد تضيع عند ضغط الصورة. 

نظرة عامة على بنية U-Net

إليك لمحة عن كيفية عمل بنية U-Net:

  • صورة الإدخال: تبدأ شبكة U-Net بصورة ثنائية الأبعاد، مثل فحص طبي أو صورة عبر الأقمار الصناعية. الهدف هو تعيين تسمية فئة لكل بكسل في الصورة.

  • أخذ العينات السفلية: تمر الصورة عبر طبقات التفافية تتعلم الميزات المرئية المهمة. عندما تتحرك الصورة عبر طبقات مختلفة، تنخفض دقتها، ويحدد النموذج أنماطًا أوسع.

  • طبقة الاختناق: في مركز الشبكة، تصل خرائط الميزات إلى أصغر دقة مكانية لها مع التقاط ميزات دلالية عالية المستوى. ببساطة، هذا التمثيل المضغوط لخرائط الميزات هو السياق العام للإدخال.

  • أخذ العينات الزائدة: ثم تعيد الشبكة بناء الصورة عن طريق زيادة الدقة تدريجيًا. تساعد الالتفافات المنقولة على توسيع خرائط الميزات مرة أخرى نحو الحجم الأصلي.

  • اتصالات التخطي: يتم ربط خرائط الميزات من مسار تقليل العينات بتلك الموجودة في مسار زيادة العينات. يساعد هذا في الحفاظ على التفاصيل المكانية الدقيقة مع دمج المعلومات السياقية عالية المستوى.
  • الناتج هو خريطة تجزئة: الناتج النهائي هو قناع تجزئة على مستوى البكسل يطابق حجم الإدخال. يتم تصنيف كل بكسل إلى فئة مثل كائن أو خلفية أو منطقة اهتمام.
الشكل 3. مخطط هيكلية U-Net. (المصدر)

فهم الفرق بين ViT و U-Net

أثناء استكشاف U-Net، قد تتساءل عن كيفية اختلافه عن نماذج التعلم العميق الأخرى، مثل محول الرؤية (ViT)، الذي يمكنه أيضًا أداء مهام التجزئة. في حين أن كلا النموذجين يمكنهما أداء مهام مماثلة، إلا أنهما يختلفان من حيث كيفية بنائهما وكيفية تعاملهما مع التجزئة.

يعمل U-Net عن طريق معالجة الصور على مستوى البكسل من خلال طبقات التفافية في هيكل ترميز-فك ترميز. غالباً ما يستخدم للمهام التي تتطلب تجزئة دقيقة، مثل الفحوصات الطبية أو مشاهد السيارات ذاتية القيادة. 

من ناحية أخرى، يقوم Vision Transformer (ViT) بتقسيم الصور إلى أجزاء ومعالجتها في وقت واحد من خلال آليات الانتباه. يستخدم الانتباه الذاتي (آلية تسمح للنموذج بتقدير أهمية الأجزاء المختلفة من الصورة بالنسبة لبعضها البعض) لالتقاط كيفية ارتباط الأجزاء المختلفة من الصورة ببعضها البعض، على عكس نهج U-Net التConvolutional.

فرق مهم آخر هو أن ViT يحتاج عمومًا إلى مزيد من البيانات ليعمل بشكل جيد، ولكنه رائع في التقاط الأنماط المعقدة. من ناحية أخرى، يعمل U-Net بشكل جيد مع مجموعات البيانات الأصغر وهو أسرع في التدريب وغالبًا ما يتطلب وقتًا أقل للتدريب.

تطبيقات نموذج U-Net

الآن بعد أن أصبح لدينا فهم أفضل لماهية U-Net وكيفية عملها، دعنا نستكشف كيف تم تطبيق U-Net عبر مجالات مختلفة.

تجزئة النزف الدماغي في التصوير الطبي

أصبحت U-Net طريقة موثوقة لتقسيم الصور الطبية المعقدة على مستوى البكسل، خاصة خلال أوجها في البحث. استخدمها الباحثون لتسليط الضوء على المجالات الرئيسية في الفحوصات الطبية، مثل الأورام وعلامات النزيف الداخلي في صور الأشعة المقطعية والتصوير بالرنين المغناطيسي. أدى هذا النهج إلى تحسين دقة التشخيص بشكل كبير وتبسيط تحليل البيانات الطبية المعقدة في البيئات البحثية.

أحد الأمثلة على تأثير U-Net في أبحاث الرعاية الصحية هو استخدامه في تحديد السكتة الدماغية والنزيف الدماغي في الفحوصات الطبية. يمكن للباحثين استخدام U-Net لتحليل فحوصات الرأس وتسليط الضوء على المناطق المثيرة للقلق، مما يتيح تحديد الحالات التي تتطلب اهتمامًا فوريًا بشكل أسرع.

الشكل 4. تقسيم آفات السكتة الدماغية النزفية باستخدام 3D U-Net. (المصدر)

تقسيم المحاصيل في الزراعة

مجال آخر استخدم فيه الباحثون U-Net هو في الزراعة، وخاصة لتقسيم المحاصيل والأعشاب الضارة والتربة. فهو يساعد المزارعين على مراقبة صحة النبات وتقدير الغلة واتخاذ قرارات أفضل عبر المزارع الكبيرة. على سبيل المثال، يمكن لـ U-Net فصل المحاصيل عن الأعشاب الضارة، مما يجعل تطبيق مبيدات الأعشاب أكثر كفاءة ويقلل من النفايات.

لمعالجة تحديات مثل ضبابية الحركة في صور الطائرات بدون طيار، قام الباحثون بتحسين U-Net باستخدام تقنيات إزالة ضبابية الصورة. يضمن ذلك تجزئة أكثر وضوحًا، حتى عند جمع البيانات أثناء الحركة، كما هو الحال أثناء المسوحات الجوية.

الشكل 5. فصل المحاصيل عن الأعشاب الضارة في الحقول الزراعية باستخدام U-Net. (المصدر)

القيادة الذاتية

قبل تقديم نماذج الذكاء الاصطناعي الأكثر تقدمًا، لعبت U-Net دورًا حيويًا في استكشاف كيف يمكن للتجزئة أن تعزز القيادة الذاتية. في المركبات ذاتية القيادة، يمكن استخدام التجزئة الدلالية لـ U-Net لتصنيف كل بكسل في الصورة إلى فئات مثل الطريق والمركبة والمشاة وعلامات المسار. وهذا يوفر للسيارة رؤية واضحة لمحيطها، مما يساعد في التنقل الآمن واتخاذ القرارات الفعالة.

الشكل 6. مشهد طريق حيث يتم تقسيم المنطقة القابلة للقيادة باستخدام U-Net. (المصدر)

إيجابيات وسلبيات U-Net

حتى اليوم، يظل U-Net خيارًا جيدًا لتقسيم الصور بين الباحثين نظرًا لتوازنه بين البساطة والدقة والقدرة على التكيف. فيما يلي بعض المزايا الرئيسية التي تجعله متميزًا:

  • قابل للتكيف مع طرق مختلفة: تم تكييف U-Net مع أنواع مختلفة من البيانات، بما في ذلك الفحوصات الطبية ثلاثية الأبعاد وصور الأقمار الصناعية وحتى إطارات الفيديو.

  • استدلال سريع عند التحسين: عند الضبط بشكل صحيح، يمكن تشغيل U-Net بكفاءة، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي أو شبه الفعلي.

  • المصدر المفتوح والمجتمع:  U-Net متاح عبر مكتبات التعلم العميق الرئيسية ويدعمه مجتمع كبير من المطورين والباحثين.

في حين أن U-Net لديها العديد من نقاط القوة، هناك أيضًا بعض القيود التي يجب وضعها في الاعتبار. فيما يلي بعض العوامل التي يجب مراعاتها: 

  • حساس لجودة البيانات: يمكن أن تتأثر أداء U-Net سلبًا بالبيانات ذات الجودة الرديئة، مثل الصور المشوشة أو منخفضة الدقة.

  • عرضة للإفراط في التوفيق مع مجموعات البيانات الصغيرة: على الرغم من أن U-Net يعمل بشكل جيد مع البيانات المحدودة، إلا أنه لا يزال يخاطر بالإفراط في التوفيق إذا لم يتم تنظيمه بشكل صحيح، خاصةً عندما تكون مجموعة البيانات صغيرة جدًا أو تفتقر إلى التنوع.

  • الموارد الحسابية: يمكن أن يكون U-Net مكلفًا من الناحية الحسابية، خاصة عند العمل مع مجموعات بيانات كبيرة، مما يتطلب موارد أجهزة كبيرة للتدريب.

النقاط الرئيسية

كانت U-Net علامة فارقة رئيسية في تطور تقسيم الصور. لقد أثبتت أن نماذج التعلم العميق يمكن أن تقدم نتائج دقيقة باستخدام مجموعات بيانات أصغر، خاصة في مجالات مثل التصوير الطبي. 

مهد هذا الإنجاز الطريق لتطبيقات أكثر تقدمًا في مختلف المجالات. مع استمرار تطور رؤية الكمبيوتر، تظل نماذج التجزئة مثل U-Net أساسية في تمكين الآلات من فهم وتفسير البيانات المرئية بدقة عالية.

هل تتطلع إلى بناء مشاريع الرؤية الحاسوبية الخاصة بك؟ استكشف مستودع GitHub الخاص بنا للتعمق في الذكاء الاصطناعي وتحقق من خيارات الترخيص الخاصة بنا. تعرف على كيف تعمل الرؤية الحاسوبية في مجال الرعاية الصحية على تحسين الكفاءة واستكشف تأثير الذكاء الاصطناعي في مجال البيع بالتجزئة من خلال زيارة صفحات الحلول الخاصة بنا! انضم إلى مجتمعنا المتنامي الآن!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة