Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Сеть пирамид характеристик (FPN)

Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.

Feature Pyramid Network (FPN) — это специализированная архитектура, используемая в компьютерном зрении (CV) для улучшения обнаружения объектов в разных масштабах. Она является важным компонентом многих современных архитектурах обнаружения объектов, разработанных для преодоления ограничений традиционных детекторов, которые с трудом распознают мелкие предметы. Генерируя многомасштабную пирамиду признаков из входного изображения с одним разрешением, FPN позволяют моделям с высокой точностью detect крупные структуры, detect и мельчайшие детали. Эта архитектура обычно находится между основой (которая извлекает особенности) и головкой обнаружения (предсказывающей классы и коробки), эффективно обогащая семантическую информацию, передаваемую на конечные слои.

Понимание архитектуры FPN

Основная цель FPN — использовать присущую глубоким нейронным сетям многомасштабную пирамидальную иерархию сверточных нейронных сетей (CNN) при одновременном снижении вычислительных затрат, связанных с обработкой нескольких масштабов изображения отдельно. Архитектура состоит из трех основных путей, которые обрабатывают визуальные данные:

  1. Взлетевший путь: это прямой расчет магистральной сети, такой как сети Residual Networks (ResNet). По мере прохождения изображения через слои пространственное разрешение уменьшается (изображение становится меньше), а семантическое значение (контекст того, что находится на изображении) увеличивается.
  2. Путь сверху вниз: на этом этапе происходит галлюцинация характеристик с более высоким разрешением путем повышения частоты дискретизации пространственно более грубых, но семантически более сильных карты с более высоких уровней пирамиды. Это позволяет восстановить пространственные детали, утраченные в процессе восходящего преобразования.
  3. Боковые соединения: эти соединения объединяют карты характеристик с повышенной частотой дискретизации из нисходящего пути с соответствующими картами характеристик из восходящего пути. Это объединение сочетает в себе высокоуровневый семантический контекст с низкоуровневой информацией о текстуре и краях, что значительно повышает точность. Оригинальная FPN демонстрирует, как эта техника достигает передовых результатов на стандартных тестах.

Важность в современном ИИ

До появления FPN детекторы объектов обычно должны были выбирать между использованием только самого верхнего слоя (хорошо подходит для больших объектов, плохо для маленьких) или обработкой пирамиды изображений (медленно и требует больших вычислительных затрат). FPN предоставляют «лучшее из обоих миров». Эта возможность жизненно важна для выводов в реальном времени, позволяя использовать такие продвинутые модели, как YOLO26 и YOLO11 сохранять высокую частоту кадров при точном распознавании объектов, занимающих всего несколько пикселей экрана.

Применение в реальном мире

Способность работать с разномасштабными данными делает FPN незаменимыми в различных отраслях промышленности, где используется искусственный интеллект (ИИ).

  • Автономные транспортные средства: Системы автономного вождения должны одновременно track транспортные средства, находящиеся поблизости, и удаленные светофоры или пешеходов. FPN позволяют стеку восприятия обрабатывать эти элементы в рамках одного и того же цикла вывода, обеспечивая мгновенное принятие решений по безопасности. Ведущие наборы данных, такие как Waymo Open Dataset часто используются для обучения этим многомасштабным возможностям
  • Анализ медицинских изображений: В диагностической визуализации для выявления аномалий требуется точность во всех масштабах. Опухоль может представлять собой большое образование или крошечный узелок на ранней стадии. FPN улучшают сегментацию изображений , используемые в радиологии, помогая врачам detect различного размера на рентгеновских снимках и МРТ-сканах, как часто обсуждается в журналах по искусственному интеллекту в радиологии.

FPN против BiFPN и PANet

В то время как FPN произвела революцию в области извлечения признаков, более новые архитектуры усовершенствовали эту концепцию.

  • BiFPN (двунаправленная пирамидальная сеть): используется в EfficientDet, вводит обучаемые веса для изучения важности различных входных признаков и добавляет восходящие пути к существующим нисходящим.
  • PANet (Path Aggregation Network): часто используется в YOLO , PANet добавляет дополнительный путь снизу вверх к структуре FPN, чтобы сократить путь информации для низкоуровневых функций, что еще больше повышает точность локализации .
  • YOLO Ultralytics YOLO : Современные итерации, такие как YOLO26, используют усовершенствованные варианты этих агрегационных сетей для максимального компромисса между скоростью и средней средней точности (mAP).

Пример реализации

Библиотеки глубокого обучения и Ultralytics обрабатывают сложности FPN внутри. Следующий пример демонстрирует, как загрузить модель, которая использует структуру пирамиды признаков для detect .

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас