Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Redes Residuales (ResNet)

Descubra cómo las ResNets revolucionan el aprendizaje profundo al resolver los gradientes que se desvanecen, permitiendo redes ultraprofundas para el análisis de imágenes, el PNL y más.

Las redes residuales, comúnmente conocidas como ResNets, representan una arquitectura revolucionaria en el aprendizaje profundo que resolvió un problema fundamental en el entrenamiento de redes neuronales muy profundas. Antes de su introducción por parte de investigadores Microsoft Research en 2015, añadir más capas a una red neuronal (NN) solía provocar una disminución de la precisión debido al problema del gradiente desaparecido, en el que las señales se desvanecían al pasar por capas complejas. ResNet introdujo un ingenioso cambio estructural denominado «conexiones de salto» o «conexiones de acceso directo», que permiten que la información omita ciertas capas y fluya directamente a las siguientes. Esta innovación permitió el entrenamiento de redes con cientos de capas, lo que supuso un avance significativo en las capacidades de los sistemas de visión por ordenador (CV).

El problema que resuelven las ResNets

En los modelos tradicionales de aprendizaje profundo (DL), las capas se apilan secuencialmente. A medida que las redes se vuelven más profundas para capturar características más complejas, se vuelven más difíciles de entrenar. Esta dificultad surge porque los gradientes —señales utilizadas para actualizar los pesos del modelo durante el entrenamiento— pueden volverse infinitesimalmente pequeños a medida que se propagan a través de muchas capas, un fenómeno conocido como el problema del gradiente desaparecido.

ResNet aborda esto reestructurando la red en bloques residuales. En lugar de aprender una correspondencia directa entre la entrada y la salida, cada bloque aprende la diferencia (o residual) entre la entrada y la salida deseada. La conexión de salto añade la entrada original directamente a la salida del bloque. Esta simple adición crea una ruta directa para que los gradientes fluyan hacia atrás durante la retropropagación, lo que garantiza que incluso las redes muy profundas puedan aprender de forma eficaz sin degradación del rendimiento. Para una comprensión teórica más profunda, puede explorar el artículo original, Deep Residual Learning for Image Recognition(Aprendizaje residual profundo para el reconocimiento de imágenes).

Componentes clave y arquitectura

El éxito de ResNet radica en su diseño modular, que ha influido en muchas arquitecturas modernas.

  • Bloques residuales: El bloque de construcción fundamental que contiene una conexión de salto. Normalmente consta de dos o tres capas de red neuronal convolucional (CNN) , seguidas de una normalización por lotes y una función de activación ReLU.
  • Mapeo de identidad: La conexión de salto realiza un mapeo de identidad, lo que significa que pasa la señal de entrada sin cambios. Esto garantiza que, en el peor de los casos, una capa pueda simplemente pasar la información sin distorsionarla, preservando el rendimiento de la red.
  • Diseño de cuello de botella: En variantes más profundas como ResNet-50 o ResNet-101, se utiliza un diseño de «cuello de botella» para mejorar la eficiencia. Esto implica el uso de convoluciones 1x1 para reducir la dimensión antes de las costosas convoluciones 3x3 , lo que reduce eficazmente el coste computacional y mantiene una alta precisión.

Aplicaciones en el mundo real

La solidez de ResNet lo ha convertido en una opción estándar para diversas aplicaciones de gran impacto.

  • Análisis de imágenes médicas: En el ámbito sanitario, distinguir entre tejido sano y anomalías como tumores requiere detectar texturas sutiles. Los modelos ResNet se utilizan con frecuencia como base para sistemas que analizan resonancias magnéticas o tomografías computarizadas. Por ejemplo, ayudan en la detección de tumores, donde la profundidad de la red le permite aprender patrones biológicos complejos que las redes menos profundas podrían pasar por alto.
  • Vehículos autónomos: Los coches autónomos se basan en la detección de objetos en tiempo real para identificar peatones, semáforos y otros vehículos. ResNet suele servir como columna vertebral de los marcos de detección, procesando las imágenes sin procesar de las cámaras para extraer mapas de características enriquecidos que las capas posteriores utilizan para localizar objetos, garantizando la seguridad de la IA en aplicaciones automovilísticas.

ResNet en los flujos de trabajo modernos de IA

Aunque arquitecturas más recientes como Vision Transformer (ViT) han ganado popularidad, ResNet sigue siendo una referencia debido a su equilibrio entre velocidad y precisión. Se utiliza ampliamente en el aprendizaje por transferencia, donde un modelo preentrenado en un conjunto de datos masivo como ImageNet se ajusta para una tarea específica con datos limitados.

Los detectores de objetos modernos, incluido el avanzado YOLO26, suelen incorporar conceptos desarrollados a partir de ResNet, como las conexiones residuales dentro de sus estructuras principales, para facilitar la extracción eficiente de características en múltiples escalas.

Ejemplo de aplicación

Puede utilizar fácilmente un modelo ResNet para clasificación de imágenes utilizando el ultralytics Python . Este ejemplo muestra cómo cargar un modelo ResNet50 preentrenado para classify imagen.

from ultralytics import YOLO

# Load a pre-trained ResNet50 model
model = YOLO("resnet50.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ResNet frente a VGG y redes simples

Es útil distinguir ResNet de otras arquitecturas para comprender su contribución única.

  • ResNet frente a redes simples: una red «simple» apila capas directamente sin conexiones de salto. A medida que estas redes se hacen más profundas (por ejemplo, más allá de 20 capas), su error de entrenamiento aumenta. ResNet resuelve esto; una ResNet de 152 capas tiene un error de entrenamiento menor que una red simple de 20 capas.
  • ResNet frente a VGG: La red VGG popularizó el uso de pequeños filtros de convolución 3x3 , pero es muy costosa desde el punto de vista computacional y pesada en parámetros. ResNet logra un mejor rendimiento con menos parámetros y una profundidad mucho mayor, lo que la hace más eficiente para aplicaciones sensibles a la latencia de inferencia.

Para obtener una visión más amplia de cómo encajan estos modelos en el panorama de la visión artificial, puede explorar nuestra guía sobre arquitecturas de detección de objetos o aprender a entrenar sus propios modelos con conjuntos de datos personalizados.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora