Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

شبكة الميزات الهرمية (FPN)

تعرّف على كيفية تمكين شبكات هرم الميّزات (FPN) من تعزيز دقة اكتشاف الأجسام متعددة المقاييس للأجسام الصغيرة والكبيرة في YOLO11 وأنظمة السيرة الذاتية الحديثة.

شبكة الهرم المميزات الهرمية (FPN) هي بنية أساسية في البنية الحديثة الرؤية الحاسوبية الحديثة مصممة detect الأجسام بمقاييس مختلفة بدقة عالية. التقليدية التقليدية للتعلم العميق (DL) التقليدية صعوبة في التعرّف على الأجسام الصغيرة لأنها تعتمد على طبقات عميقة حيث تضيع الدقة المكانية. تعالج FPN هذا من خلال بناء بنية هرمية من خرائط الميزات التي تجمع بين ميزات منخفضة الدقة وقوية من الناحية الدلالية مع ميزات عالية الدقة ومفصّلة مكانيًا. يعمل هذا التصميم بمثابة "رقبة" حاسمة في العديد من بنيات الكشف عن الكائناتالذي يربط مستخرج الميزة الأولية - المعروف باسم العمود الفقري-بطبقات التنبؤ النهائية، أو ما يعرف ب رأس الكشف. ومن خلال مشاركة المعلومات بكفاءة عبر المستويات المختلفة، تمكّن شبكات التنبؤات الافتراضية من تمكين نماذج مثل YOLO11 تحديد كل من التفاصيل الصغيرة التفاصيل الصغيرة والبعيدة والأهداف الكبيرة والبارزة داخل صورة واحدة.

فهم الهندسة المعمارية

يكمن الابتكار الأساسي لشبكة هرم الميزات في كيفية معالجتها للمعلومات المرئية من خلال ثلاث مراحل متميزة مراحل مختلفة. تسمح هذه البنية للشبكة بالحفاظ على تمثيل غني للصورة عبر دقة متعددة دون تكبد تكلفة حسابية ضخمة.

  1. المسار من الأسفل إلى الأعلى: تتوافق هذه المرحلة مع الممر الأمامي للمسار القياسي الشبكة العصبية التلافيفية القياسية (CNN)القياسية مثل ResNet. أثناء مرور الصورة عبر الشبكة، تنخفض الأبعاد المكانية بينما تزداد القيمة الدلالية (الفهم السياقي الفهم) تزداد.
  2. مسار من أعلى إلى أسفل: لاستعادة التفاصيل المكانية المفقودة، تقوم الشبكة برفع عينات الخرائط المكانية الخشنة ولكنها غنية دلالياً من الطبقات العميقة. تعيد هذه العملية بشكل فعال بناء خرائط ذات دقة أعلى أعلى دقة تحتوي على سياق قوي.
  3. الروابط الجانبية: تتضمّن الخطوة الحاسمة دمج الخرائط المُصغّرة من المسار من أعلى إلى أسفل مع الخرائط المقابلة من المسار من الأسفل إلى الأعلى. تدمج هذه الروابط الجانبية الروابط الدلالية عالية المستوى مع الأنسجة والحواف منخفضة المستوى الموجودة في الطبقات السابقة، مما يؤدي إلى إنشاء هرم متعدد المقاييس. إن الأصلي ورقة بحث FPN الأصلية بالتفصيل كيف أن هذا الدمج يعزز الأداء بشكل كبير على مجموعات البيانات القياسية مثل COCO.

أهمية الكشف متعدد النطاقات

في سيناريوهات العالم الحقيقي، تظهر الأجسام بأحجام مختلفة إلى حد كبير اعتمادًا على المسافة التي تبعدها عن الكاميرا. A المصنف القياسي قد يكتشف بسهولة سيارة تملأ الإطار ولكنه يفشل في detect أحد المشاة في الخلفية. الشبكات الافتراضية تحل هذه المشكلة من خلال تعيين مهام التنبؤ إلى مستويات مختلفة من الهرم. يتم اكتشاف الأجسام الكبيرة على منخفضة الدقة وخرائط الميزات العميقة، بينما يتم اكتشاف الأجسام الصغيرة على خرائط الميزات المدمجة عالية الدقة. هذه القدرة هذه الإمكانية ضرورية لتحقيق مستوى عالٍ من عالية الدقة و والاستدعاء في بيئات متنوعة تمييز النماذج المجهزة بشبكة FPN عن أجهزة الكشف الأقدم أحادية النطاق.

تطبيقات واقعية

إن القدرة على التعامل مع البيانات متعددة النطاقات تجعل من شبكات FPNs أمرًا لا غنى عنه في مختلف الصناعات التي تعتمد على الذكاء الاصطناعي (AI).

  • المركبات ذاتية القيادة: يجب أن تقوم أنظمة القيادة الذاتية track المركبات القريبة وإشارات المرور البعيدة في نفس الوقت. يسمح نظام FPN للمركبات ذاتية القيادة مكدس الإدراك بمعالجة هذه العناصر ضمن نفس مسار الاستدلال، مما يضمن اتخاذ قرارات السلامة الحرجة في الوقت الفعلي. الأبحاث الرائدة من مؤسسات مثل Waymo تسلط الضوء على أهمية هذا الفهم متعدد النطاقات متعدد النطاقات للملاحة.
  • تحليل الصور الطبية: في في التصوير التشخيصي، يتطلب تحديد الحالات الشاذة الدقة عبر المقاييس. قد يكون الورم عبارة عن كتلة كبيرة أو عقدة صغيرة في مرحلة مبكرة. تُحسِّن صور FPNs تجزئة الصورة المستخدمة في الأشعة المستخدمة في الأشعة، مما يساعد الأطباء السريريين على detect الأمراض ذات الأحجام المختلفة في الأشعة السينية والتصوير بالرنين المغناطيسي، كما هو موضح في مجلات الأشعة والذكاء الاصطناعي.

الشبكة الحرة للسكان الأصليين مقابل الشبكة الثنائية للسكان الأصليين

في حين أن FPN أحدثت ثورة في استخراج الميزات، فقد حسّنت البنى الأحدث هذا المفهوم. ومن التطورات الملحوظة في هذا المجال شبكة هرم السمات ثنائية الاتجاه (BiFPPN)، التي قدمها أبحاثGoogle في بنية EfficientDet. على عكس القياسية FPN التي تتدفق في اتجاه واحد (من أعلى إلى أسفل)، تضيف BiFPPN مسارات من أسفل إلى أعلى وتتعلم أوزانًا محددة لكل اتصال، مع إعطاء الأولوية للميزات الأكثر أهمية. ومع ذلك، تظل تصميمات FPN القياسية ومتغيراتها هي أساساً لنماذج عالية الأداء مثل YOLO11التي توازن بين السرعة والدقة بشكل فعال لمعظم الاستدلال في الوقت الحقيقي في الوقت الحقيقي.

مثال على التنفيذ

تتعامل المكتبات الحديثة مع تعقيدات FPNs داخليًا. يوضح المثال التالي استخدام Ultralytics YOLO التي تتضمن هياكل هرم الميزات المتقدمة detect الأجسام من جميع الأحجام بسلاسة.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن