Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

شبكة الميزات الهرمية (FPN)

تعرّف على كيفية تمكين شبكات هرم الميّزات (FPN) من تعزيز دقة اكتشاف الأجسام متعددة المقاييس للأجسام الصغيرة والكبيرة في YOLO11 وأنظمة السيرة الذاتية الحديثة.

شبكة هرمية مميزة (FPN) هي بنية متخصصة تستخدم في الرؤية الحاسوبية (CV) لتحسين الكشف عن الأجسام بمقاييس مختلفة. وهي تعمل كعنصر أساسي في العديد من بنى الكشف عن الأجسام، وهي مصممة للتغلب على قيود أجهزة الكشف التقليدية التي تواجه صعوبة في التعرف على العناصر الصغيرة. من خلال إنشاء هرم ميزات متعدد المقاييس من صورة مدخلة ذات دقة واحدة، تتيح شبكات FPN للنماذج detect الهياكل الكبيرة والتفاصيل الدقيقة بدقة عالية. عادةً ما تقع هذه البنية بين العمود الفقري (الذي يستخرج الميزات) و رأس رأس الكشف (الذي يتنبأ بالفئات والمربعات)، مما يثري بشكل فعال المعلومات الدلالية التي تمر إلى الطبقات النهائية.

فهم بنية FPN

الهدف الأساسي لشبكة FPN هو الاستفادة من التسلسل الهرمي المتعدد المستويات المتأصل في الشبكات العصبية التلافيفية العميقة الشبكات العصبية التلافيفية (CNNs) مع تقليل التكلفة الحسابية المرتبطة بمعالجة مستويات الصور المتعددة بشكل منفصل. تتكون البنية من ثلاثة مسارات رئيسية تعالج البيانات المرئية:

  1. المسار التصاعدي: هذا هو الحساب التقدمي للشبكة الأساسية، مثل الشبكات المتبقية (ResNet). مع انتقال الصورة عبر الطبقات، تنخفض الدقة المكانية (تصغر الصورة) بينما تزداد القيمة الدلالية (سياق ما يوجد في الصورة).
  2. المسار التنازلي: تهلوس هذه المرحلة بميزات عالية الدقة عن طريق إعادة تقييم الخرائط المكانية الأقل دقة، ولكن الأقوى من الناحية الدلالية خرائط الميزات من مستويات هرمية أعلى . وهذا يستعيد التفاصيل المكانية المفقودة أثناء عملية التصاعدي.
  3. الوصلات الجانبية: تدمج هذه الوصلات خرائط الميزات المُعززة من المسار التنازلي مع خرائط الميزات المقابلة من المسار التصاعدي. يجمع هذا الدمج بين السياق الدلالي عالي المستوى ومعلومات النسيج والحواف منخفضة المستوى، مما يعزز الدقة. ورقة بحث البحثية الأصلية لـ FPN توضح كيف تحقق هذه التقنية نتائج متطورة على المعايير القياسية.

أهميتها في الذكاء الاصطناعي الحديث

قبل ظهور شبكات FPN، كان على أجهزة الكشف عن الأجسام عمومًا الاختيار بين استخدام الطبقة العليا فقط (مناسبة للأجسام الكبيرة، غير مناسبة للأجسام الصغيرة) أو معالجة هرم الصور (بطيء ومكلف من الناحية الحسابية). توفر شبكات FPN حلًا "يجمع بين أفضل ما في العالمين". هذه القدرة ضرورية الاستدلال في الوقت الفعلي، مما يسمح لنماذج متقدمة مثل YOLO26 و YOLO11 الحفاظ على معدلات إطارات عالية مع تحديد دقيق للأجسام التي تشغل بضعة بكسلات فقط من الشاشة.

تطبيقات واقعية

إن القدرة على التعامل مع البيانات متعددة النطاقات تجعل من شبكات FPNs أمرًا لا غنى عنه في مختلف الصناعات التي تعتمد على الذكاء الاصطناعي (AI).

  • المركبات ذاتية القيادة: يجب أن track أنظمة القيادة الذاتية في وقت واحد المركبات track القريبة وإشارات المرور البعيدة أو المشاة. تسمح شبكات FPN لمجموعة الإدراك بمعالجة هذه العناصر في نفس مرحلة الاستدلال، مما يضمن اتخاذ قرارات السلامة على الفور. مجموعات البيانات الرائدة مثل مجموعة بيانات Waymo المفتوحة غالبًا ما تستخدم لتدريب هذه القدرات متعددة النطاقات .
  • تحليل الصور الطبية: في التصوير التشخيصي، يتطلب تحديد الحالات الشاذة دقة على جميع المستويات. قد يكون الورم كتلة كبيرة أو عقيدات صغيرة في مرحلة مبكرة. تعمل FPNs على تحسين تقسيم الصور المستخدمة في الأشعة، مما يساعد الأطباء detect بأحجام مختلفة في الأشعة السينية والأشعة المقطعية بالرنين المغناطيسي، كما يتم مناقشته بشكل متكرر في مجلات الذكاء الاصطناعي في طب الأشعة.

FPN مقابل BiFPN و PANet

بينما أحدثت FPN ثورة في استخراج الميزات، قامت البنى الأحدث بتحسين هذا المفهوم.

  • BiFPN (شبكة هرمية ثنائية الاتجاه للميزات): تُستخدم في EfficientDet، وتقدم أوزانًا قابلة للتعلم لتعلم أهمية ميزات الإدخال المختلفة وتضيف مسارات تصاعدية إلى المسارات التنازلية الموجودة.
  • PANet (شبكة تجميع المسارات): غالبًا ما تستخدم في YOLO تضيف PANet مسارًا إضافيًا من الأسفل إلى الأعلى إلى بنية FPN لتقصير مسار المعلومات للميزات منخفضة المستوى، مما يحسن دقة تحديد الموقع بشكل أكبر.
  • YOLO Ultralytics YOLO : تستخدم الإصدارات الحديثة مثل YOLO26 متغيرات متقدمة من شبكات التجميع هذه لتحقيق أقصى قدر من التوازن بين السرعة متوسط الدقة (mAP).

مثال على التنفيذ

تتعامل مكتبات التعلم العميق Ultralytics مع تعقيدات FPNs داخليًا. يوضح المثال التالي كيفية تحميل نموذج يستخدم بنية هرم الميزات detect .

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن