Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.
Сеть пирамид характеристик (Feature Pyramid Network, FPN) - это компонент моделей глубокого обучения, в частности архитектур обнаружения объектов, предназначенный для улучшения обнаружения объектов различного масштаба. На любом изображении объекты могут казаться большими или маленькими в зависимости от их размера и расстояния до камеры. FPN решает эту проблему, эффективно создавая многомасштабное представление признаков, что позволяет модели одновременно распознавать маленький, удаленный автомобиль и большой, близкий грузовик с высокой точностью. FPN выступает в качестве связующего звена между основным экстрактором признаков и конечным компонентом предсказания в сети.
FPN работает путем объединения семантически сильных признаков низкого разрешения с семантически слабыми признаками высокого разрешения. Этот процесс обычно осуществляется через структуру с двумя путями и боковыми связями.
В типичной модели обнаружения объектов архитектура делится на позвоночник, шею и голову. FPN - популярный выбор для компонента шеи. Его основная роль заключается в агрегировании признаков, извлеченных позвоночником, до их использования в конечной задаче обнаружения. Благодаря богатому, многомасштабному представлению признаков, FPN позволяют моделям типа YOLO11 надежно работать в широком диапазоне размеров объектов. Такой подход более эффективен с вычислительной точки зрения, чем раздельная обработка изображения с несколькими разрешениями, поскольку в нем повторно используются признаки, вычисленные в ходе одного прохода вперед. Многие современные модели используют эту концепцию, как видно из различных сравнений моделей YOLO.
FPN являются неотъемлемой частью многих современных приложений компьютерного зрения (CV), в которых критически важно многомасштабное обнаружение объектов.
Хотя FPN стала значительным достижением, новые архитектуры развили эту концепцию. Ярким примером является двунаправленная сеть Feature Pyramid Network (BiFPN), представленная в работе EfficientDet компании Google Research. В отличие от простого нисходящего пути FPN, BiFPN вводит двунаправленные связи (как сверху вниз, так и снизу вверх) и использует взвешенное объединение признаков, позволяя сети узнать важность различных входных признаков. Это часто приводит к повышению производительности и эффективности, что подтверждается такими сравнениями, как EfficientDet против YOLO11. В то время как FPN является основополагающей концепцией, BiFPN представляет собой более продвинутый и оптимизированный подход к многомасштабному объединению признаков.