Узнайте, как сети Feature Pyramid Networks (FPN) обеспечивают многомасштабное обнаружение объектов, повышая точность обнаружения мелких и крупных объектов в YOLO11 и современных системах CV.
Сеть пирамид признаков (Feature Pyramid Network, FPN) - это фундаментальная архитектура в современных компьютерном зрении (КВ) разработанная для detect объектов различного масштаба с высокой точностью. Традиционная глубокое обучение (ГО) модели часто с трудом справляются с распознаванием мелких объектов, поскольку они опираются на глубокие слои, в которых теряется пространственное разрешение. FPN решает эту проблему эту проблему путем построения пирамидальной структуры из карты признаков которая сочетает низкого разрешения, семантически сильные признаки с высоким разрешением, пространственно детализированными признаками. Такая конструкция выступает в качестве решающим "горлышком" во многих архитектурах обнаружения объектовсоединяя начальный экстрактор признаков, известный как хребет-до конечных слоев предсказания, или головка обнаружения. Благодаря эффективному обмену информацией между различными уровнями, FPN позволяют использовать такие модели, как YOLO11 точно идентифицировать как мелкие, отдаленные детали и крупные, заметные объекты на одном изображении.
Основная инновация сети Feature Pyramid Network заключается в том, как она обрабатывает визуальную информацию на трех различных этапов. Такая структура позволяет сети сохранять богатое представление изображения в различных разрешениях без огромных вычислительных затрат.
В реальном мире объекты выглядят совершенно по-разному в зависимости от расстояния до камеры. A стандартный классификатор может легко заметить автомобиль, заполняющий кадр, но не detect пешехода на заднем плане. FPNs решают эту проблему путем распределения задач предсказания по разным уровням пирамиды. Крупные объекты обнаруживаются на низкого разрешения, глубокие карты признаков, а мелкие объекты - на слитых картах признаков высокого разрешения. Эта Эта возможность необходима для достижения высокого точности и запоминания в различных условиях, отличия моделей, оснащенных FPN, от более старых одномасштабных детекторов.
Способность работать с разномасштабными данными делает FPN незаменимыми в различных отраслях промышленности, где используется искусственный интеллект (ИИ).
В то время как FPN произвела революцию в извлечении признаков, новые архитектуры усовершенствовали эту концепцию. Заметной эволюцией является Двунаправленная сеть пирамид признаков (BiFPN), представленная Google Research в архитектуре EfficientDet. В отличие от стандартной FPN, в которой поток идет в одну сторону (сверху вниз), BiFPN добавляет пути снизу вверх и учит определенные веса для каждого соединения. Приоритет отдается более важным характеристикам. Тем не менее, стандартные FPN и их варианты остаются основой для таких высокопроизводительных моделей, как YOLO11в которых эффективно сочетаются скорость и точность для большинства выводы в реальном времени задач.
Современные библиотеки справляются со всеми сложностями FPN внутри себя. Следующий пример демонстрирует использование Ultralytics YOLO который включает в себя передовые структуры пирамид признаков для беспрепятственного detect объектов любого размера.
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()