تعرّف على كيفية تمكين شبكات هرم الميّزات (FPN) من تعزيز دقة اكتشاف الأجسام متعددة المقاييس للأجسام الصغيرة والكبيرة في YOLO11 وأنظمة السيرة الذاتية الحديثة.
شبكة الهرم المميزات الهرمية (FPN) هي بنية أساسية في البنية الحديثة الرؤية الحاسوبية الحديثة مصممة detect الأجسام بمقاييس مختلفة بدقة عالية. التقليدية التقليدية للتعلم العميق (DL) التقليدية صعوبة في التعرّف على الأجسام الصغيرة لأنها تعتمد على طبقات عميقة حيث تضيع الدقة المكانية. تعالج FPN هذا من خلال بناء بنية هرمية من خرائط الميزات التي تجمع بين ميزات منخفضة الدقة وقوية من الناحية الدلالية مع ميزات عالية الدقة ومفصّلة مكانيًا. يعمل هذا التصميم بمثابة "رقبة" حاسمة في العديد من بنيات الكشف عن الكائناتالذي يربط مستخرج الميزة الأولية - المعروف باسم العمود الفقري-بطبقات التنبؤ النهائية، أو ما يعرف ب رأس الكشف. ومن خلال مشاركة المعلومات بكفاءة عبر المستويات المختلفة، تمكّن شبكات التنبؤات الافتراضية من تمكين نماذج مثل YOLO11 تحديد كل من التفاصيل الصغيرة التفاصيل الصغيرة والبعيدة والأهداف الكبيرة والبارزة داخل صورة واحدة.
يكمن الابتكار الأساسي لشبكة هرم الميزات في كيفية معالجتها للمعلومات المرئية من خلال ثلاث مراحل متميزة مراحل مختلفة. تسمح هذه البنية للشبكة بالحفاظ على تمثيل غني للصورة عبر دقة متعددة دون تكبد تكلفة حسابية ضخمة.
في سيناريوهات العالم الحقيقي، تظهر الأجسام بأحجام مختلفة إلى حد كبير اعتمادًا على المسافة التي تبعدها عن الكاميرا. A المصنف القياسي قد يكتشف بسهولة سيارة تملأ الإطار ولكنه يفشل في detect أحد المشاة في الخلفية. الشبكات الافتراضية تحل هذه المشكلة من خلال تعيين مهام التنبؤ إلى مستويات مختلفة من الهرم. يتم اكتشاف الأجسام الكبيرة على منخفضة الدقة وخرائط الميزات العميقة، بينما يتم اكتشاف الأجسام الصغيرة على خرائط الميزات المدمجة عالية الدقة. هذه القدرة هذه الإمكانية ضرورية لتحقيق مستوى عالٍ من عالية الدقة و والاستدعاء في بيئات متنوعة تمييز النماذج المجهزة بشبكة FPN عن أجهزة الكشف الأقدم أحادية النطاق.
إن القدرة على التعامل مع البيانات متعددة النطاقات تجعل من شبكات FPNs أمرًا لا غنى عنه في مختلف الصناعات التي تعتمد على الذكاء الاصطناعي (AI).
في حين أن FPN أحدثت ثورة في استخراج الميزات، فقد حسّنت البنى الأحدث هذا المفهوم. ومن التطورات الملحوظة في هذا المجال شبكة هرم السمات ثنائية الاتجاه (BiFPPN)، التي قدمها أبحاثGoogle في بنية EfficientDet. على عكس القياسية FPN التي تتدفق في اتجاه واحد (من أعلى إلى أسفل)، تضيف BiFPPN مسارات من أسفل إلى أعلى وتتعلم أوزانًا محددة لكل اتصال، مع إعطاء الأولوية للميزات الأكثر أهمية. ومع ذلك، تظل تصميمات FPN القياسية ومتغيراتها هي أساساً لنماذج عالية الأداء مثل YOLO11التي توازن بين السرعة والدقة بشكل فعال لمعظم الاستدلال في الوقت الحقيقي في الوقت الحقيقي.
تتعامل المكتبات الحديثة مع تعقيدات FPNs داخليًا. يوضح المثال التالي استخدام Ultralytics YOLO التي تتضمن هياكل هرم الميزات المتقدمة detect الأجسام من جميع الأحجام بسلاسة.
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()