Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Сеть пирамид характеристик (FPN)

Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.

Сеть пирамид признаков (Feature Pyramid Network, FPN) - это фундаментальная архитектура в современных компьютерном зрении (КВ) разработанная для detect объектов различного масштаба с высокой точностью. Традиционная глубокое обучение (ГО) модели часто с трудом справляются с распознаванием мелких объектов, поскольку они опираются на глубокие слои, в которых теряется пространственное разрешение. FPN решает эту проблему эту проблему путем построения пирамидальной структуры из карты признаков которая сочетает низкого разрешения, семантически сильные признаки с высоким разрешением, пространственно детализированными признаками. Такая конструкция выступает в качестве решающим "горлышком" во многих архитектурах обнаружения объектовсоединяя начальный экстрактор признаков, известный как хребет-до конечных слоев предсказания, или головка обнаружения. Благодаря эффективному обмену информацией между различными уровнями, FPN позволяют использовать такие модели, как YOLO11 точно идентифицировать как мелкие, отдаленные детали и крупные, заметные объекты на одном изображении.

Понимание архитектуры

Основная инновация сети Feature Pyramid Network заключается в том, как она обрабатывает визуальную информацию на трех различных этапов. Такая структура позволяет сети сохранять богатое представление изображения в различных разрешениях без огромных вычислительных затрат.

  1. Путь "снизу вверх": Этот этап соответствует прохождению вперед стандартного Конволюционной нейронной сети (CNN), например ResNet. По мере прохождения изображения через сеть пространственные размеры уменьшаются, а семантическая ценность (контекстное понимание) увеличивается.
  2. Путь сверху вниз: Чтобы восстановить утраченные пространственные детали, сеть увеличивает выборку пространственно грубых но семантически богатые карты признаков из более глубоких слоев. Этот процесс эффективно восстанавливает карты более высокого разрешения карты более высокого разрешения, содержащие сильный контекст.
  3. Латеральные связи: Важнейшим этапом является объединение увеличенных карт нисходящего пути с соответствующими картами из восходящего пути. Эти латеральные связи объединяют высокоуровневый семантический семантический контекст высокого уровня с низкоуровневыми текстурами и гранями, найденными в предыдущих слоях, создавая многомасштабную пирамиду признаков. Сайт оригинал исследовательский документ FPN подробно описывается, как такое слияние значительно повышает производительность на таких эталонных наборах данных, как COCO.

Почему важно многомасштабное обнаружение

В реальном мире объекты выглядят совершенно по-разному в зависимости от расстояния до камеры. A стандартный классификатор может легко заметить автомобиль, заполняющий кадр, но не detect пешехода на заднем плане. FPNs решают эту проблему путем распределения задач предсказания по разным уровням пирамиды. Крупные объекты обнаруживаются на низкого разрешения, глубокие карты признаков, а мелкие объекты - на слитых картах признаков высокого разрешения. Эта Эта возможность необходима для достижения высокого точности и запоминания в различных условиях, отличия моделей, оснащенных FPN, от более старых одномасштабных детекторов.

Применение в реальном мире

Способность работать с разномасштабными данными делает FPN незаменимыми в различных отраслях промышленности, где используется искусственный интеллект (ИИ).

  • Автономные транспортные средства: Системы автономного вождения должны одновременно track близлежащие автомобили и удаленные светофоры. FPN позволяет стеку восприятия обрабатывать эти элементы в рамках одного прохода вывода, обеспечивая принятие критически важных решений по безопасности принимаются в режиме реального времени. Ведущие исследования таких организаций, как Waymo подчеркивают важность такого многомасштабного понимания для навигации.
  • Анализ медицинских изображений: На сайте Диагностическая визуализация, выявление аномалий требует точности в разных масштабах. Опухоль может быть большой массой или крошечной, узел на ранней стадии. FPNs улучшают сегментация изображений модели используемые в радиологии, помогая врачам detect патологии разного размера на рентгеновских снимках и снимках МРТ, о чем говорится в статье Журналы по искусственному интеллекту в радиологии.

FPN против BiFPN

В то время как FPN произвела революцию в извлечении признаков, новые архитектуры усовершенствовали эту концепцию. Заметной эволюцией является Двунаправленная сеть пирамид признаков (BiFPN), представленная Google Research в архитектуре EfficientDet. В отличие от стандартной FPN, в которой поток идет в одну сторону (сверху вниз), BiFPN добавляет пути снизу вверх и учит определенные веса для каждого соединения. Приоритет отдается более важным характеристикам. Тем не менее, стандартные FPN и их варианты остаются основой для таких высокопроизводительных моделей, как YOLO11в которых эффективно сочетаются скорость и точность для большинства выводы в реальном времени задач.

Пример реализации

Современные библиотеки справляются со всеми сложностями FPN внутри себя. Следующий пример демонстрирует использование Ultralytics YOLO который включает в себя передовые структуры пирамид признаков для беспрепятственного detect объектов любого размера.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас