Узнайте, как рецептивное поле определяет то, что видит нейронная сеть. Узнайте, как Ultralytics оптимизирует пространственный контекст для эффективного detect всех размеров.
В области компьютерного зрения (CV) и глубокого обучения рецептивное поле обозначает конкретную область входного изображения, которую «видит» или анализирует определенный нейрон в нейронной сети (NN). Концептуально оно функционирует аналогично полю зрения человеческого глаза или объектива камеры. Оно определяет, сколько пространственного контекста модель может воспринимать на любом данном слое. По мере прохождения данных через сверточную нейронную сеть (CNN) рецептивное поле обычно расширяется, позволяя системе переходить от идентификации мелких локальных деталей, таких как края или углы, к пониманию сложных глобальных структур, таких как целые объекты или сцены.
Размер и глубина рецептивного поля определяются архитектурой сети. В начальных слоях нейроны обычно имеют небольшое рецептивное поле, фокусируясь на крошечной группе пикселей для захвата мелких текстур. По мере углубления сети такие операции, как объединение слоев и шаговые свертки, эффективно уменьшают разрешение карт признаков. Этот процесс позволяет последующим нейронам агрегировать информацию из гораздо большей части исходного входа.
Современные архитектуры, включая передовую Ultralytics , разработаны таким образом, чтобы тщательно сбалансировать эти поля . Если рецептивное поле слишком узкое, модель может не распознать крупные объекты, поскольку не сможет воспринять их форму целиком. И наоборот, если поле слишком широкое и не поддерживает разрешение, модель может пропустить мелкие объекты. Чтобы решить эту проблему, инженеры часто используют дилатационные свертки (также известные как атрозные свертки) для расширения рецептивного поля без снижения пространственного разрешения, что является важной техникой для высокоточных задач, таких как семантическая сегментация.
Оптимизация рецептивного поля имеет решающее значение для успеха различных решений в области искусственного интеллекта.
Чтобы полностью понять принципы проектирования сетей, полезно отличать рецептивное поле от схожих терминов:
Современные модели, такие как новая YOLO26, используют Feature Pyramid Networks (FPN) для поддержания эффективных рецептивных полей для объектов всех размеров. В следующем примере показано, как загрузить модель и выполнить обнаружение объектов, автоматически используя эти внутренние архитектурные оптимизации. Пользователи, желающие обучить свои собственные модели с помощью оптимизированных архитектур, могут использовать Ultralytics для беспрепятственного управления наборами данных и обучения в облаке.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()