Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.
Feature Pyramid Network (FPN) — это специализированная архитектура, используемая в компьютерном зрении (CV) для улучшения обнаружения объектов в разных масштабах. Она является важным компонентом многих современных архитектурах обнаружения объектов, разработанных для преодоления ограничений традиционных детекторов, которые с трудом распознают мелкие предметы. Генерируя многомасштабную пирамиду признаков из входного изображения с одним разрешением, FPN позволяют моделям с высокой точностью detect крупные структуры, detect и мельчайшие детали. Эта архитектура обычно находится между основой (которая извлекает особенности) и головкой обнаружения (предсказывающей классы и коробки), эффективно обогащая семантическую информацию, передаваемую на конечные слои.
Основная цель FPN — использовать присущую глубоким нейронным сетям многомасштабную пирамидальную иерархию сверточных нейронных сетей (CNN) при одновременном снижении вычислительных затрат, связанных с обработкой нескольких масштабов изображения отдельно. Архитектура состоит из трех основных путей, которые обрабатывают визуальные данные:
До появления FPN детекторы объектов обычно должны были выбирать между использованием только самого верхнего слоя (хорошо подходит для больших объектов, плохо для маленьких) или обработкой пирамиды изображений (медленно и требует больших вычислительных затрат). FPN предоставляют «лучшее из обоих миров». Эта возможность жизненно важна для выводов в реальном времени, позволяя использовать такие продвинутые модели, как YOLO26 и YOLO11 сохранять высокую частоту кадров при точном распознавании объектов, занимающих всего несколько пикселей экрана.
Способность работать с разномасштабными данными делает FPN незаменимыми в различных отраслях промышленности, где используется искусственный интеллект (ИИ).
В то время как FPN произвела революцию в области извлечения признаков, более новые архитектуры усовершенствовали эту концепцию.
Библиотеки глубокого обучения и Ultralytics обрабатывают сложности FPN внутри. Следующий пример демонстрирует, как загрузить модель, которая использует структуру пирамиды признаков для detect .
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()