Узнайте, как сети Feature Pyramid Networks (FPN) улучшают многомасштабное обнаружение объектов. Узнайте, как Ultralytics использует передовые FPN для detect и крупных объектов.
Feature Pyramid Network (FPN) — это специализированный архитектурный компонент, используемый в современном системах компьютерного зрения (CV) для улучшения обнаружения объектов в различных масштабах. Она эффективно решает давнюю проблему в области анализа изображений: распознавание как крупных, заметных структур, так и мелких, удаленных деталей в одном и том же изображении. Генерируя многомасштабное представление входных данных — концептуально схожее с пирамидой — FPN позволяют нейронным сетям извлекать богатую семантическую информацию на каждом уровне разрешения. Эта архитектура обычно находится между основой, которая извлекает исходные характеристики, и головкой обнаружения, которая предсказывает классы объектов и ограничительные рамки.
Основная инновация FPN заключается в способе обработки информации. Традиционные Сверточные нейронные сети (CNN) естественным образом создают иерархию признаков, в которой входное изображение постепенно подвергается понижательной дискретизации. Хотя это углубляет семантическое понимание (знание того, что находится на изображении), оно часто ухудшает пространственное разрешение (знание того, где именно находится объект), в результате чего мелкие объекты исчезают.
FPN решают эту проблему с помощью трехэтапного процесса:
Эта комбинация приводит к созданию пирамиды, в которой каждый уровень имеет сильную семантику и хорошую локализацию, что значительно повышает точность и повторяемости для объектов всех размеров.
FPN являются краеугольным камнем современных архитектур обнаружения объектов. До их появления модели должны были выбирать между скоростью (использование только последнего слоя) и точностью (обработка пирамиды изображений, что очень медленно). FPN предоставляют решение, сочетающее лучшее из обоих миров, позволяя вывод в реальном времени без потери возможностей обнаружения мелких объектов.
Эта эффективность имеет решающее значение для передовых моделей, таких как YOLO26, которая использует сложные агрегационные сети, вдохновленные принципами FPN (такими как PANet), для достижения передовой производительности. Архитектура гарантирует, что независимо от того, развернута ли модель на периферийных устройствах или мощных серверах через Ultralytics , она сохраняет высокую точность при работе с различными наборами данных.
Многомасштабные возможности FPN делают их незаменимыми в отраслях, где безопасность и точность имеют первостепенное значение.
Полезно отличать стандартный FPN от его усовершенствованных вариантов, встречающихся в более новых архитектурах.
Расширенные библиотеки, такие как ultralytics внутренне обрабатывать сложность построения FPN. При загрузке
такой модели, как YOLO26, архитектура автоматически включает эти слои агрегации признаков для максимальной производительности.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()