Feature Pyramid Network (FPN)
Узнай, как пирамидальные сети признаков (FPN) улучшают обнаружение объектов в разных масштабах. Пойми, как Ultralytics YOLO26 использует продвинутые FPN для обнаружения как мелких, так и крупных объектов.
Feature Pyramid Network (FPN) — это специализированный архитектурный компонент, используемый в современных системах computer vision (CV) для улучшения обнаружения объектов разных масштабов. Он эффективно решает давнюю проблему анализа изображений: распознавание как крупных, заметных структур, так и крошечных, удаленных деталей на одном и том же изображении. Создавая многомасштабное представление входных данных — концептуально похожее на пирамиду, — FPN позволяют нейронным сетям извлекать богатую семантическую информацию на каждом уровне разрешения. Эта архитектура обычно располагается между backbone, который извлекает необработанные признаки, и detection head, который предсказывает классы объектов и ограничивающие рамки (bounding boxes).
Link to this sectionКак работают Feature Pyramid Networks#
Основная инновация FPN заключается в способе обработки информации. Традиционные Convolutional Neural Networks (CNNs) естественным образом создают иерархию признаков, где входное изображение постепенно уменьшается в разрешении (downsampled). Хотя это углубляет семантическое понимание (знание того, что находится на изображении), это часто снижает пространственное разрешение (точное понимание того, где оно находится), из-за чего мелкие объекты исчезают.
FPN решают это с помощью трехэтапного процесса:
-
Bottom-Up Pathway: Это стандартный проход сети в прямом направлении, такой как Residual Network (ResNet). По мере того как сеть обрабатывает изображение, она создает feature maps, которые уменьшаются в размере, но увеличиваются в семантической ценности.
-
Top-Down Pathway: Сеть строит пирамиду с более высоким разрешением путем апсемплинга семантически богатых признаков из более глубоких слоев. Этот шаг «галлюцинирует» сильный контекст обратно в карты большего пространственного размера.
-
Lateral Connections: Чтобы восстановить четкие детали, потерянные во время уменьшения разрешения, FPN объединяют апсемплинговые признаки с исходными картами высокого разрешения из восходящего пути (bottom-up pathway) через латеральные связи.
Такая комбинация приводит к созданию пирамиды, где каждый уровень обладает сильной семантикой и хорошей локализацией, что значительно повышает precision и recall для объектов всех размеров.
Link to this sectionЗначение в архитектурах обнаружения объектов#
FPN являются краеугольным камнем современных object detection architectures. До их появления моделям приходилось выбирать между скоростью (использование только последнего слоя) или точностью (обработка пирамиды изображений, что очень медленно). FPN предоставляют решение «лучшее из обоих миров», обеспечивая real-time inference без ущерба для возможности обнаружения мелких объектов.
Эта эффективность критически важна для продвинутых моделей, таких как YOLO26, которая использует сложные сети агрегации, вдохновленные принципами FPN (например, PANet), для достижения передовой производительности. Архитектура гарантирует, что независимо от того, развернута ли модель на периферийных устройствах или на мощных серверах через Ultralytics Platform, она сохраняет высокую точность на различных наборах данных.
Link to this sectionРеальные приложения#
Многомасштабная способность FPN делает их незаменимыми в отраслях, где безопасность и точность имеют первостепенное значение.
- AI in Automotive: Автономные транспортные средства должны одновременно отслеживать крупные грузовики поблизости и небольшие светофоры или пешеходов вдалеке. FPN позволяют стеку восприятия обрабатывать эти разные масштабы за один проход, обеспечивая своевременное принятие решений. Наборы данных, такие как nuScenes, часто используются для тестирования этих возможностей.
- Medical Image Analysis: В диагностической визуализации обнаружение патологий требует выявления аномалий, которые сильно варьируются по размеру. Модель, оснащенная FPN, может идентифицировать как крупные структуры органов, так и крошечные опухоли на ранней стадии в MRI scans, помогая радиологам ставить точные диагнозы.
- AI in Agriculture: Точное земледелие опирается на обнаружение сельскохозяйственных культур и вредителей по изображениям с дронов. Поскольку высота дрона может варьироваться, размер растений на изображении меняется. FPN помогают моделям хорошо обобщать данные, точно выполняя object counting независимо от высоты камеры.
Link to this sectionFPN против других агрегаторов признаков#
Полезно отличать стандартные FPN от их развитых вариантов, встречающихся в новых архитектурах.
- FPN против PANet: В то время как FPN добавляет нисходящий путь для обогащения признаков, Path Aggregation Network (PANet) добавляет дополнительный восходящий путь поверх FPN. Это сокращает путь передачи информации для низкоуровневых признаков, еще больше улучшая локализацию — техника, часто адаптируемая в моделях YOLO.
- FPN против BiFPN: Встречающаяся в EfficientDet, Bi-directional Feature Pyramid Network (BiFPN) вводит обучаемые веса для различных признаков и удаляет узлы только с одним входом, оптимизируя сеть для эффективности.
Link to this sectionПрактический пример#
Продвинутые библиотеки, такие как ultralytics, обрабатывают сложность построения FPN внутри себя. Когда ты загружаешь такую модель, как YOLO26, архитектура автоматически включает эти слои агрегации признаков для максимизации производительности.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()





