Receptive Field
Explora cómo el campo receptivo define lo que ve una red neuronal. Aprende cómo Ultralytics YOLO26 optimiza el contexto espacial para detectar objetos de todos los tamaños de manera efectiva.
En el dominio de la visión artificial (CV) y el aprendizaje profundo, el campo receptivo se refiere a la región específica de una imagen de entrada que una neurona particular en una red neuronal (NN) "ve" o analiza. Conceptualmente, funciona de forma similar al campo de visión de un ojo humano o de una lente de cámara. Determina cuánto contexto espacial puede percibir un modelo en cualquier capa dada. A medida que los datos avanzan a través de una Red Neuronal Convolucional (CNN), el campo receptivo suele expandirse, lo que permite al sistema pasar de identificar detalles pequeños y locales (como bordes o esquinas) a entender estructuras globales y complejas, como objetos enteros o escenas.
Link to this sectionLa mecánica de los campos receptivos#
El tamaño y la profundidad del campo receptivo vienen dictados por la arquitectura de la red. En las capas iniciales, las neuronas suelen tener un campo receptivo pequeño, centrándose en un diminuto grupo de píxeles para capturar texturas de grano fino. A medida que la red se vuelve más profunda, operaciones como las capas de agrupación (pooling layers) y las convoluciones con stride (strided convolutions) realizan efectivamente un submuestreo (downsample) de los mapas de características. Este proceso permite a las neuronas subsiguientes agregar información de una porción mucho mayor de la entrada original.
Las arquitecturas modernas, incluyendo el Ultralytics YOLO26 de última generación, están diseñadas para equilibrar estos campos meticulosamente. Si el campo receptivo es demasiado estrecho, el modelo puede fallar al reconocer objetos grandes porque no puede percibir la forma completa. Por el contrario, si el campo es excesivamente amplio sin mantener la resolución, el modelo podría pasar por alto objetos pequeños. Para solucionar esto, los ingenieros utilizan a menudo convoluciones dilatadas (también conocidas como convoluciones atrous) para expandir el campo receptivo sin reducir la resolución espacial, una técnica vital para tareas de alta precisión como la segmentación semántica.
Link to this sectionAplicaciones en el mundo real#
Optimizar el campo receptivo es fundamental para el éxito de diversas soluciones de IA.
- Conducción autónoma: En la IA para automoción, los sistemas de percepción deben rastrear simultáneamente detalles diminutos y grandes obstáculos. Un vehículo necesita un campo receptivo pequeño para identificar semáforos lejanos, mientras que simultáneamente requiere un campo receptivo grande para entender la trayectoria de un camión cercano o la curvatura del carril de la carretera. Esta percepción multiescala garantiza una mejor seguridad de la IA y una toma de decisiones más eficaz.
- Diagnóstico médico: Al aplicar IA en la atención sanitaria, los radiólogos confían en modelos para detectar anomalías en escáneres. Para identificar tumores cerebrales, la red requiere un campo receptivo grande para entender la simetría y estructura general del cerebro. Sin embargo, para detectar microcalcificaciones en mamografías, el modelo se basa en capas iniciales con campos receptivos pequeños, sensibles a cambios sutiles en la textura.
Link to this sectionDistinguir conceptos relacionados#
Para entender completamente el diseño de redes, resulta útil diferenciar el campo receptivo de términos similares:
- Campo receptivo vs. Kernel: El tamaño del kernel (o filtro) define las dimensiones de la ventana deslizante (p. ej., 3x3) para una única operación de convolución. El campo receptivo es una propiedad emergente que representa el área de entrada total acumulada que afecta a una neurona. Una pila de múltiples kernels de 3x3 dará como resultado un campo receptivo mucho mayor que 3x3.
- Campo receptivo vs. Mapa de características: Un mapa de características es el volumen de salida producido por una capa, que contiene las representaciones aprendidas. El campo receptivo describe la relación entre un punto único en ese mapa de características y la imagen de entrada original.
- Campo receptivo vs. Ventana de contexto: Aunque ambos términos se refieren al alcance de los datos percibidos, "ventana de contexto" se utiliza normalmente en el Procesamiento del Lenguaje Natural (NLP) o en el análisis de vídeo para denotar un lapso temporal o secuencial (p. ej., límite de tokens). El campo receptivo se refiere estrictamente al área espacial en datos tipo rejilla (imágenes).
Link to this sectionUso práctico en código#
Los modelos de última generación, como el nuevo YOLO26, utilizan redes de pirámide de características (FPN) para mantener campos receptivos efectivos para objetos de todos los tamaños. El siguiente ejemplo muestra cómo cargar un modelo y realizar detección de objetos, aprovechando estas optimizaciones arquitectónicas internas de forma automática. Los usuarios que deseen entrenar sus propios modelos con arquitecturas optimizadas pueden utilizar la Plataforma Ultralytics para una gestión de conjuntos de datos y un entrenamiento en la nube sin interrupciones.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()





