Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Сеть пирамид характеристик (FPN)

Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.

Сеть пирамид характеристик (Feature Pyramid Network, FPN) - это компонент моделей глубокого обучения, в частности архитектур обнаружения объектов, предназначенный для улучшения обнаружения объектов различного масштаба. На любом изображении объекты могут казаться большими или маленькими в зависимости от их размера и расстояния до камеры. FPN решает эту проблему, эффективно создавая многомасштабное представление признаков, что позволяет модели одновременно распознавать маленький, удаленный автомобиль и большой, близкий грузовик с высокой точностью. FPN выступает в качестве связующего звена между основным экстрактором признаков и конечным компонентом предсказания в сети.

Как работает сеть пирамид характеристик

FPN работает путем объединения семантически сильных признаков низкого разрешения с семантически слабыми признаками высокого разрешения. Этот процесс обычно осуществляется через структуру с двумя путями и боковыми связями.

  1. Путь снизу вверх: Это стандартный прямой проход конволюционной нейронной сети (CNN), которая служит основой модели. По мере прохождения изображения через последовательные слои результирующие карты признаков уменьшаются в пространственном размере, но увеличиваются в семантической глубине, что означает, что они отражают более абстрактные понятия.
  2. Нисходящий путь: Сеть берет карту характеристик из самого глубокого слоя (который небольшой, но информационно насыщенный) и начинает ее повышать.
  3. Латеральные связи: По мере того как нисходящий путь восстанавливает более крупные карты признаков, он объединяет их с соответствующими картами признаков из восходящего пути. Это слияние обогащает слои, подвергшиеся апсемплированию, более тонкими и локализованными деталями из предыдущих слоев. В результате получается "пирамида" карт признаков, каждая из которых богата как семантикой, так и пространственными деталями, которые затем подаются в головку обнаружения для предсказания. Оригинальный исследовательский документ FPN содержит подробное техническое объяснение этого процесса.

Роль FPN в обнаружении объектов

В типичной модели обнаружения объектов архитектура делится на позвоночник, шею и голову. FPN - популярный выбор для компонента шеи. Его основная роль заключается в агрегировании признаков, извлеченных позвоночником, до их использования в конечной задаче обнаружения. Благодаря богатому, многомасштабному представлению признаков, FPN позволяют моделям типа YOLO11 надежно работать в широком диапазоне размеров объектов. Такой подход более эффективен с вычислительной точки зрения, чем раздельная обработка изображения с несколькими разрешениями, поскольку в нем повторно используются признаки, вычисленные в ходе одного прохода вперед. Многие современные модели используют эту концепцию, как видно из различных сравнений моделей YOLO.

Применение в реальном мире

FPN являются неотъемлемой частью многих современных приложений компьютерного зрения (CV), в которых критически важно многомасштабное обнаружение объектов.

  • Автономные транспортные средства: Самоуправляемые автомобили должны обнаруживать пешеходов, транспортные средства, дорожные знаки и разметку на различных расстояниях. FPN помогает системе восприятия автомобиля, подробно описанной в ресурсах таких учреждений, как Университет Карнеги-Меллона, идентифицировать удаленного пешехода и близлежащий автомобиль в одном кадре, что необходимо для безопасной навигации.
  • Анализ медицинских изображений: В радиологии FPN могут помочь проанализировать медицинские снимки, чтобы обнаружить аномалии разных размеров, такие как маленькие повреждения и большие опухоли. Эта многомасштабная способность позволяет проводить более комплексную и точную автоматизированную диагностику в таких областях, как патология и онкология, о чем говорится в исследовании, опубликованном Национальным институтом здоровья (NIH).

FPN против BiFPN

Хотя FPN стала значительным достижением, новые архитектуры развили эту концепцию. Ярким примером является двунаправленная сеть Feature Pyramid Network (BiFPN), представленная в работе EfficientDet компании Google Research. В отличие от простого нисходящего пути FPN, BiFPN вводит двунаправленные связи (как сверху вниз, так и снизу вверх) и использует взвешенное объединение признаков, позволяя сети узнать важность различных входных признаков. Это часто приводит к повышению производительности и эффективности, что подтверждается такими сравнениями, как EfficientDet против YOLO11. В то время как FPN является основополагающей концепцией, BiFPN представляет собой более продвинутый и оптимизированный подход к многомасштабному объединению признаков.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена