Глоссарий

Сеть пирамид характеристик (FPN)

Узнайте, как сети Feature Pyramid Networks (FPN) улучшают многомасштабное обнаружение объектов. Узнайте, как Ultralytics использует передовые FPN для detect и крупных объектов.

Feature Pyramid Network (FPN) — это специализированный архитектурный компонент, используемый в современном системах компьютерного зрения (CV) для улучшения обнаружения объектов в различных масштабах. Она эффективно решает давнюю проблему в области анализа изображений: распознавание как крупных, заметных структур, так и мелких, удаленных деталей в одном и том же изображении. Генерируя многомасштабное представление входных данных — концептуально схожее с пирамидой — FPN позволяют нейронным сетям извлекать богатую семантическую информацию на каждом уровне разрешения. Эта архитектура обычно находится между основой, которая извлекает исходные характеристики, и головкой обнаружения, которая предсказывает классы объектов и ограничительные рамки.

Как работают пирамидальные сети

Основная инновация FPN заключается в способе обработки информации. Традиционные Сверточные нейронные сети (CNN) естественным образом создают иерархию признаков, в которой входное изображение постепенно подвергается понижательной дискретизации. Хотя это углубляет семантическое понимание (знание того, что находится на изображении), оно часто ухудшает пространственное разрешение (знание того, где именно находится объект), в результате чего мелкие объекты исчезают.

FPN решают эту проблему с помощью трехэтапного процесса:

Восходящий путь: это стандартный прямой проход сети, такой как сеть Residual Network (ResNet). По мере обработки изображения сетью создаются карты признаков , размер которых уменьшается , но семантическая ценность увеличивается.
Нисходящий путь: сеть строит пирамиду с более высоким разрешением путем повышения частоты дискретизации семантически богатых признаков из более глубоких слоев. Этот шаг «восстанавливает» сильный контекст в более крупных пространственных картах.
Боковые связи: чтобы восстановить четкие детали, утраченные при понижающей дискретизации, FPN объединяют повышенные в разрешении особенности с исходными картами высокого разрешения из восходящего пути через боковые связи.

Эта комбинация приводит к созданию пирамиды, в которой каждый уровень имеет сильную семантику и хорошую локализацию, что значительно повышает точность и повторяемости для объектов всех размеров.

Важность в архитектурах обнаружения объектов

FPN являются краеугольным камнем современных архитектур обнаружения объектов. До их появления модели должны были выбирать между скоростью (использование только последнего слоя) и точностью (обработка пирамиды изображений, что очень медленно). FPN предоставляют решение, сочетающее лучшее из обоих миров, позволяя вывод в реальном времени без потери возможностей обнаружения мелких объектов.

Эта эффективность имеет решающее значение для передовых моделей, таких как YOLO26, которая использует сложные агрегационные сети, вдохновленные принципами FPN (такими как PANet), для достижения передовой производительности. Архитектура гарантирует, что независимо от того, развернута ли модель на периферийных устройствах или мощных серверах через Ultralytics , она сохраняет высокую точность при работе с различными наборами данных.

Применение в реальном мире

Многомасштабные возможности FPN делают их незаменимыми в отраслях, где безопасность и точность имеют первостепенное значение.

ИИ в автомобилестроении: Автономные транспортные средства должны одновременно track грузовики поблизости и небольшие светофоры или пешеходов на расстоянии. FPN позволяют стеку восприятия обрабатывать эти разные масштабы за один проход, обеспечивая своевременное принятие решений. Наборы данных, такие как nuScenes часто используются для оценки этих возможностей
Анализ медицинских изображений: В диагностической визуализации для обнаружения патологий необходимо выявлять аномалии, размеры которых могут сильно варьироваться. Модель, оснащенная FPN, может идентифицировать как крупные структуры органов, так и крошечные опухоли на ранней стадии в МРТ-сканах, помогая радиологам ставить точные диагнозы.
ИИ в сельском хозяйстве: Точное земледелие основано на обнаружении сельскохозяйственных культур и вредителей по изображениям с дронов. Поскольку высота полета дрона может изменяться, размер растений на изображении меняется. FPN помогают моделям хорошо обобщать, точно выполняя подсчет объектов независимо от высоты камеры

FPN по сравнению с другими агрегаторами функций

Полезно отличать стандартный FPN от его усовершенствованных вариантов, встречающихся в более новых архитектурах.

FPN против PANet: в то время как FPN добавляет нисходящий путь для обогащения функций, сеть агрегации путей (PANet) добавляет дополнительный путь снизу вверх поверх FPN. Это сокращает путь информации для низкоуровневых функций, еще больше улучшая локализация, техника, часто адаптируемая в YOLO .
FPN против BiFPN: найдено в EfficientDet, двунаправленной пирамидальной сети (BiFPN) вводит обучаемые веса для различных характеристик и удаляет узлы с одним входом, оптимизируя сеть для эффективности.

Практический пример

Расширенные библиотеки, такие как ultralytics внутренне обрабатывать сложность построения FPN. При загрузке такой модели, как YOLO26, архитектура автоматически включает эти слои агрегации признаков для максимальной производительности.

from ultralytics import YOLO

# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")

# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")

# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()

Сеть пирамид характеристик (FPN)

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работают пирамидальные сети

Важность в архитектурах обнаружения объектов

Применение в реальном мире

FPN по сравнению с другими агрегаторами функций

Практический пример

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics