التكاملات

دليل حول بنية U-Net وتطبيقاتها

تعرّف على بنية U-Net، وكيف تدعم تجزئة الصور، وتطبيقاتها، وسبب أهميتها في تطور الرؤية الحاسوبية.

أبأبيرامي فينا

5 min readJuly 15, 2025

رؤية الحاسوب هي فرع من الذكاء الاصطناعي (AI) يركز على تحليل البيانات المرئية. وقد مهدت الطريق للعديد من الأنظمة المتطورة، مثل أتمتة عملية فحص المنتجات في المصانع ومساعدة المركبات ذاتية القيادة على التنقل في الطرق.

إحدى أكثر مهام رؤية الحاسوب شهرة هي كشف الأشياء. تُمكّن هذه المهمة النماذج من تحديد مواقع الأشياء داخل صورة والتعرف عليها باستخدام صناديق الإحاطة (bounding boxes). على الرغم من أن صناديق الإحاطة مفيدة لمختلف التطبيقات، إلا أنها توفر فقط تقديراً تقريبياً لموقع الشيء.

ومع ذلك، في مجالات مثل الرعاية الصحية، حيث الدقة أمر بالغ الأهمية، تعتمد حالات استخدام الذكاء الاصطناعي في الرؤية على أكثر من مجرد تحديد الشيء. فغالبًا ما تتطلب أيضًا معلومات تتعلق بالشكل والموقع الدقيق للأشياء.

هذا بالضبط ما صُممت مهمة رؤية الحاسوب المعروفة باسم التجزئة (segmentation) للقيام به. فبدلاً من استخدام صناديق الإحاطة، تكتشف نماذج التجزئة الأشياء على مستوى البكسل. وعلى مر السنين، طور الباحثون نماذج رؤية حاسوب متخصصة للتجزئة.

أحد هذه النماذج هو U-Net. وعلى الرغم من أن نماذج أحدث وأكثر تقدمًا قد تفوقت على أدائه، إلا أن U-Net يحتل مكانة مهمة في تاريخ رؤية الحاسوب. في هذا المقال، سنلقي نظرة فاحصة على بنية U-Net، وكيف تعمل، وأين تم استخدامها، وكيف تقارن بنماذج التجزئة الأكثر حداثة المتاحة اليوم.

تجزئة مشهد جوي باستخدام نموذج التعلم العميق U-Net

الشكل 1. مثال على التجزئة باستخدام نموذج التعلم العميق U-Net. (المصدر)

Link to this sectionتاريخ تجزئة الصور#

قبل أن نتعمق في ماهية U-Net، دعونا أولاً نكوّن فكرة أفضل عن كيفية تطور نماذج تجزئة الصور.

في البداية، اعتمدت رؤية الحاسوب على تقنيات تقليدية مثل كشف الحواف، أو العتبة (thresholding)، أو نمو المناطق لفصل الأشياء في الصورة. استُخدمت هذه التقنيات للكشف عن حدود الأشياء باستخدام الحواف، وفصل المناطق حسب كثافة البكسل، وتجميع البكسلات المتشابهة. لقد نجحت في الحالات البسيطة ولكنها غالبًا ما فشلت عندما كانت الصور تحتوي على ضوضاء، أو أشكال متداخلة، أو حدود غير واضحة.

بعد صعود التعلم العميق في عام 2012، قدم الباحثون مفهوم الشبكات التلافيفية الكاملة (FCNs) في عام 2014 لمهام مثل التجزئة الدلالية. استبدلت هذه النماذج أجزاءً معينة من الشبكة التلافيفية للسماح للحاسوب بالنظر إلى الصورة كاملة في وقت واحد، بدلًا من تقسيمها إلى أجزاء أصغر. جعل هذا من الممكن للنموذج إنشاء خرائط مفصلة تعرض ما يوجد في الصورة بشكل أكثر وضوحًا.

جدول زمني لتطور خوارزميات التجزئة القائمة على التعلم العميق

الشكل 2. تطور خوارزميات التجزئة القائمة على التعلم العميق. (المصدر)

بناءً على FCNs، تم تقديم U-Net من قبل باحثين في جامعة فرايبورغ في عام 2015. صُمم النموذج في الأصل لـ تجزئة الصور الطبية الحيوية. وبشكل خاص، صُمم U-Net ليعمل بشكل جيد في الحالات التي تكون فيها البيانات المشروحة محدودة.

في غضون ذلك، أضافت الإصدارات اللاحقة مثل UNet++ و TransUNet ترقيات مثل طبقات الانتباه واستخراج الميزات بشكل أفضل. تساعد طبقات الانتباه النموذج على التركيز على المناطق الرئيسية، بينما يلتقط استخراج الميزات المحسن معلومات أكثر تفصيلاً.

Link to this sectionما هو U-Net، وكيف تتدفق الميزات عبر النموذج؟#

U-Net هو نموذج تعلم عميق صُمم خصيصًا لتجزئة الصور. يأخذ صورة كمدخل وينتج قناع تجزئة يصنف كل بكسل وفقًا للشيء أو المنطقة التي ينتمي إليها.

حصل النموذج على اسمه من بنيته التي تشبه حرف U. وهو يتكون من جزأين رئيسيين: مُشفر (encoder) يضغط الصورة ويتعلم ميزاتها، ومُفكك (decoder) يوسعها مرة أخرى إلى الحجم الأصلي. يخلق هذا التصميم شكل U متماثلًا، مما يساعد النموذج على فهم الهيكل العام للصورة وتفاصيلها الدقيقة.

إحدى الميزات الحاسمة في U-Net هي استخدام وصلات التخطي (skip connections)، التي تسمح بتمرير المعلومات من المُشفر مباشرة إلى المُفكك. وهذا يعني أن النموذج يمكنه الحفاظ على التفاصيل المهمة التي قد تضيع عند ضغط الصورة.

Link to this sectionنظرة عامة على بنية U-Net#

إليك لمحة عن كيفية عمل بنية U-Net:

صورة الإدخال: يبدأ U-Net بصورة ثنائية الأبعاد، مثل فحص طبي أو صورة أقمار صناعية. الهدف هو تعيين تسمية فئة لكل بكسل في الصورة.
أخذ العينات لأسفل (Downsampling): تمر الصورة عبر طبقات تلافيفية تتعلم ميزات مرئية مهمة. ومع انتقال الصورة عبر طبقات مختلفة، تنخفض دقتها، ويحدد النموذج أنماطًا أوسع.
طبقة الاختناق (Bottleneck layer): في مركز الشبكة، تصل خرائط الميزات إلى أصغر دقة مكانية لها بينما تلتقط ميزات دلالية عالية المستوى. ببساطة، هذا التمثيل المضغوط لخرائط الميزات هو السياق العام للمدخل.
أخذ العينات لأعلى (Upsampling): تقوم الشبكة بعد ذلك بإعادة بناء الصورة عن طريق زيادة الدقة تدريجيًا. تساعد التلافيف المنقولة في توسيع خرائط الميزات مرة أخرى نحو الحجم الأصلي.
وصلات التخطي: يتم ربط خرائط الميزات من مسار أخذ العينات لأسفل مع تلك الموجودة في مسار أخذ العينات لأعلى. وهذا يساعد في الحفاظ على التفاصيل المكانية الدقيقة مع دمج المعلومات السياقية عالية المستوى.
المخرج هو خريطة تجزئة: المخرج النهائي هو قناع تجزئة لكل بكسل يطابق حجم المدخل. يتم تصنيف كل بكسل في فئة مثل شيء، أو خلفية، أو منطقة اهتمام.

رسم توضيحي لهيكلية الترميز وفك الترميز U-Net

الشكل 3. رسم تخطيطي لبنية U-Net. (المصدر)

Link to this sectionفهم الفرق بين ViT و U-Net#

بينما تستكشف U-Net، قد تتساءل عن كيفية اختلافه عن نماذج التعلم العميق الأخرى، مثل محول الرؤية (ViT)، الذي يمكنه أيضًا أداء مهام التجزئة. على الرغم من أن كلا النموذجين يمكنهما أداء مهام مماثلة، إلا أنهما يختلفان من حيث طريقة بنائهما وكيفية تعاملهما مع التجزئة.

يعمل U-Net من خلال معالجة الصور على مستوى البكسل عبر طبقات تلافيفية في هيكل مُشفر ومُفكك. وغالبًا ما يُستخدم للمهام التي تتطلب تجزئة دقيقة، مثل الفحوصات الطبية أو مشاهد السيارات ذاتية القيادة.

من ناحية أخرى، يقوم محول الرؤية (ViT) بتقسيم الصور إلى رقع (patches) ويعالجها في وقت واحد عبر آليات الانتباه. يستخدم الانتباه الذاتي (آلية تسمح للنموذج بوزن أهمية أجزاء مختلفة من الصورة بالنسبة لبعضها البعض) لالتقاط كيفية ارتباط أجزاء مختلفة من الصورة ببعضها البعض، على عكس نهج U-Net التلافيفي.

فرق مهم آخر هو أن ViT يحتاج عمومًا إلى مزيد من البيانات ليعمل بشكل جيد، لكنه رائع في التقاط الأنماط المعقدة. في المقابل، يعمل U-Net بشكل جيد مع مجموعات البيانات الأصغر ويكون أسرع في التدريب وغالبًا ما يتطلب وقت تدريب أقل.

Link to this sectionتطبيقات نموذج U-Net#

الآن بعد أن أصبح لدينا فهم أفضل لماهية U-Net وكيف يعمل، دعونا نستكشف كيف تم تطبيق U-Net عبر مجالات مختلفة.

Link to this sectionتجزئة نزيف المخ في التصوير الطبي#

أصبح U-Net طريقة موثوقة للتجزئة على مستوى البكسل لـ الصور الطبية المعقدة، خاصة خلال فترة ذروته في البحث. استخدمه الباحثون لتسليط الضوء على المناطق الرئيسية في الفحوصات الطبية، مثل الأورام وعلامات النزيف الداخلي في صور الأشعة المقطعية والرنين المغناطيسي. عزز هذا النهج دقة التشخيص بشكل كبير وبسط تحليل البيانات الطبية المعقدة في بيئات البحث.

أحد الأمثلة على تأثير U-Net في أبحاث الرعاية الصحية هو استخدامه في تحديد السكتة الدماغية ونزيف المخ في الفحوصات الطبية. يمكن للباحثين استخدام U-Net لتحليل فحوصات الرأس وتسليط الضوء على مناطق القلق، مما يتيح تحديدًا أسرع للحالات التي تتطلب اهتمامًا فوريًا.

تجزئة آفات السكتة الدماغية النزفية في الفحوصات الطبية باستخدام U-Net ثلاثي الأبعاد

الشكل 4. تجزئة آفات السكتة الدماغية النزفية باستخدام 3D U-Net. (المصدر)

Link to this sectionتجزئة المحاصيل في الزراعة#

مجال آخر استخدم فيه الباحثون U-Net هو الزراعة، لا سيما لتجزئة المحاصيل والأعشاب الضارة والتربة. إنه يساعد المزارعين على مراقبة صحة النبات، وتقدير العوائد، واتخاذ قرارات أفضل عبر المزارع الكبيرة. على سبيل المثال، يمكن لـ U-Net فصل المحاصيل عن الأعشاب الضارة، مما يجعل استخدام مبيدات الأعشاب أكثر كفاءة ويقلل من الهدر.

لمعالجة تحديات مثل ضبابية الحركة في صور الطائرات بدون طيار، قام الباحثون بتحسين U-Net بتقنيات إزالة ضبابية الصور. وهذا يضمن تجزئة أوضح، حتى عند جمع البيانات أثناء الحركة، مثل أثناء المسوحات الجوية.

نموذج U-Net يفصل المحاصيل عن الأعشاب الضارة في حقل زراعي

الشكل 5. فصل المحاصيل عن الأعشاب الضارة في الحقول الزراعية باستخدام U-Net. (المصدر)

Link to this sectionالقيادة الذاتية#

قبل تقديم نماذج ذكاء اصطناعي أكثر تقدمًا، لعب U-Net دورًا حيويًا في استكشاف كيف يمكن للتجزئة تعزيز القيادة الذاتية. في المركبات ذاتية القيادة، يمكن استخدام التجزئة الدلالية لـ U-Net لتصنيف كل بكسل في الصورة إلى فئات مثل الطريق، والمركبة، والمشاة، وعلامات المسار. وهذا يزود السيارة برؤية واضحة لمحيطها، مما يساعد في التنقل الآمن واتخاذ القرارات الفعالة.

مشهد طريق مع تجزئة المنطقة القابلة للقيادة باستخدام U-Net

الشكل 6. مشهد طريق حيث يتم تجزئة المنطقة القابلة للقيادة باستخدام U-Net. (المصدر)

Link to this sectionإيجابيات وسلبيات U-Net#

حتى اليوم، يظل U-Net خيارًا جيدًا لتجزئة الصور بين الباحثين نظرًا لتوازنه بين البساطة والدقة والقابلية للتكيف. إليك بعض المزايا الرئيسية التي تجعله متميزًا:

قابل للتكيف مع طرائق مختلفة: تم تكييف U-Net مع أنواع بيانات مختلفة، بما في ذلك الفحوصات الطبية ثلاثية الأبعاد، وصور الأقمار الصناعية، وحتى إطارات الفيديو.
استنتاج سريع عند التحسين: عند ضبطه بشكل صحيح، يمكن لـ U-Net العمل بكفاءة، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي أو شبه الفعلي.
مفتوح المصدر ومجتمعي: U-Net متاح عبر مكتبات التعلم العميق الرئيسية ومدعوم من قبل مجتمع كبير من المطورين والباحثين.

على الرغم من أن U-Net لديه العديد من نقاط القوة، إلا أن هناك أيضًا بعض القيود التي يجب وضعها في الاعتبار. إليك بعض العوامل التي يجب مراعاتها:

حساس لجودة البيانات: يمكن أن يتأثر أداء U-Net سلبًا بالبيانات منخفضة الجودة، مثل الصور المليئة بالضوضاء أو منخفضة الدقة.
عرضة للإفراط في التخصيص (overfitting) مع مجموعات البيانات الصغيرة: على الرغم من أن U-Net يعمل بشكل جيد مع البيانات المحدودة، إلا أنه لا يزال يخاطر بالإفراط في التخصيص إذا لم يتم تنظيمه بشكل صحيح، خاصة عندما تكون مجموعة البيانات صغيرة جدًا أو تفتقر إلى التنوع.
الموارد الحسابية: يمكن أن يكون U-Net مكلفًا من الناحية الحسابية، خاصة عند العمل مع مجموعات بيانات كبيرة، مما يتطلب موارد أجهزة كبيرة للتدريب.

Link to this sectionأبرز النقاط#

لقد كان U-Net علامة فارقة في تطور تجزئة الصور. لقد أثبت أن نماذج التعلم العميق يمكن أن تحقق نتائج دقيقة باستخدام مجموعات بيانات أصغر، خاصة في مجالات مثل التصوير الطبي.

مهد هذا الاختراق الطريق لتطبيقات أكثر تقدمًا في مجالات مختلفة. مع استمرار تطور رؤية الحاسوب، تظل نماذج التجزئة مثل U-Net أساسية في تمكين الآلات من فهم وتفسير البيانات المرئية بدقة عالية.

هل تتطلع إلى بناء مشاريع رؤية الحاسوب الخاصة بك؟ استكشف مستودع GitHub الخاص بنا للتعمق أكثر في الذكاء الاصطناعي وتحقق من خيارات الترخيص لدينا. تعلم كيف تعمل رؤية الحاسوب في الرعاية الصحية على تحسين الكفاءة واستكشف تأثير الذكاء الاصطناعي في البيع بالتجزئة من خلال زيارة صفحات الحلول الخاصة بنا! انضم إلى مجتمعنا المتنامي الآن!

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

دليل حول بنية U-Net وتطبيقاتها

Link to this sectionتاريخ تجزئة الصور#

Link to this sectionما هو U-Net، وكيف تتدفق الميزات عبر النموذج؟#

Link to this sectionنظرة عامة على بنية U-Net#

Link to this sectionفهم الفرق بين ViT و U-Net#

Link to this sectionتطبيقات نموذج U-Net#

Link to this sectionتجزئة نزيف المخ في التصوير الطبي#

Link to this sectionتجزئة المحاصيل في الزراعة#

Link to this sectionالقيادة الذاتية#

Link to this sectionإيجابيات وسلبيات U-Net#

Link to this sectionأبرز النقاط#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!